爬爬爬--xpath

最新推荐文章于 2024-05-08 03:05:06 发布

乱写乱画

最新推荐文章于 2024-05-08 03:05:06 发布

阅读量329

点赞数

分类专栏： Python 爬爬爬 xpath

本文链接：https://blog.csdn.net/qq_41802773/article/details/89084462

版权

Python 同时被 3 个专栏收录

64 篇文章 0 订阅

订阅专栏

爬爬爬

17 篇文章 0 订阅

订阅专栏

xpath

1 篇文章 0 订阅

订阅专栏

获取静态网页数据时，可以选择使用xpath，Beautifulsoup来提高工作效率

XPath属于lxml库模块，所以首先要安装库lxml

XPath的使用方法：

首先讲一下XPath的基本语法知识：
四种标签的使用方法
1) // 双斜杠定位根节点，会对全文进行扫描，在文档中选取所有符合条件的内容，以列表的形式返回。
2) / 单斜杠寻找当前标签路径的下一层路径标签或者对当前路标签内容进行操作
3) /text() 获取当前路径下的文本内容
4) /@xxxx 提取当前路径下标签的属性值
5) | 可选符使用|可选取若干个路径如//p | //div 即在当前路径下选取所有符合条件的p标签和div标签。
6) . 点用来选取当前节点
7) .. 双点选取当前节点的父节点
列一个常用的匹配规则：//title[@lang='eng']

了解基本规则，动手试试：

>>> html = requests.get("http://bbs.tianya.cn/list-lookout-1.shtml", 'User-Agent').text #构建请求，获取response，这没什么好说的
>>> html = etree.HTML(html) 
>>> type(html)
<class 'lxml.etree._Element'>


for all_data_div in all_data_div_list:
    etree_obj = etree.HTML(str(all_data_div))
    url = etree_obj.xpath('//div[@class="atl-item"]/div/div[2]/span/a/@href')
    uid = etree_obj.xpath('//div[@class="atl-item"]/div/div[2]/span/a/@uid')
    uname = etree_obj.xpath('//div[@class="atl-item"]/div/div[2]/span/a/@uname')
    post_time = etree_obj.xpath('//div[@class="atl-item"]/div/div[2]/span[2]/text()')
    content = [content.strip() for content in etree_obj.xpath('//div[@class="bbs-content"]/text()')]
    like_num = etree_obj.xpath('//div[@class="atl-reply"]/span[@class="tuijian"]/a/@_count')
    replyid = etree_obj.xpath('//div[@class="atl-item"]/@replyid')
    reply_list = etree_obj.xpath('//div[@class="ir-list"]/ul/li/span[@class="ir-content"]/text() | //div[@class="ir-list"]/ul/li/p/a[1]/@href | //div[@class="ir-list"]/ul/li/@_userid |//div[@class="ir-list"]/ul/li/@_username|//div[@class="ir-list"]/ul/li/p/span[2]/text()')
    print(url,uid,uname,post_time,content,replyid,reply_list)

乱写乱画

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬爬爬--xpath

获取静态网页数据时，可以选择使用xpath，Beautifulsoup来提高工作效率XPath属于lxml库模块，所以首先要安装库lxmlXPath的使用方法：首先讲一下XPath的基本语法知识：四种标签的使用方法1)//双斜杠定位根节点，会对全文进行扫描，在文档中选取所有符合条件的内容，以列表的形式返回。2)/单斜杠寻找当前标签路径的下一层路径标签或者对当前...
复制链接

扫一扫

专栏目录