网络爬虫css选择器知识贴(一)

css选择器:

  1. #container 选择id为container的元素
  2. .container 选择所有class包含container的元素
  3. * 选择所有元素
  4. div a 选取所有div下所有a元素
  5. ul + p 选取ul后面的第一个p元素
  6. ul ~p 选取与ul相邻的所有p元素
  7. a:nth-child(2) 选取下面第二个标签,如果是a的话则选取,不是则不取
  8. a:nth-child(2n) 选取第偶数个a元素
  9. a:nth-child(2n+1) 选取第奇数个a元素
  10. li.multi-chosen > a 选取class为multi-chosen的li的所有a元素
  11. a[title] 选取所有拥有title属性的a元素
  12. a[href=”https://www.lagou.com/jobs/3537439.html”] 选取所有href属性为https://www.lagou.com/jobs/3537439.html的a元素
  13. a[href*=”www.lagou.com”] 选取所有href属性值中包含www.lagou.com的a元素
  14. a[href^=”http”] 选取所有href属性值中以http开头的a元素
  15. div:not(#content-container) 选取所有id为非content-container 的div

 

css实例:

response.css('title::text').extract()        输出标签title的文本内容

response.css('base::attr(href)').extract()   输出标签base的属性href的内容

response.css('a[href*=image]::attr(href)').extract()     输出属性href内容中含有image的标签a的属性href的内容

response.css('a[href*=image] img::attr(src)').extract()   输出属性href内容中含有image的标签a下面的标签img的属性src的内容

response.xpath('//a[contains(@href, "image")]/text()').re_first(r'Name:\s*(.*)')    使用正则表达式:

                <div id='images'> <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a> 

                输出:     u'My image 1'

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值