python爬虫xpath针对json代码的分析方法

最新推荐文章于 2023-09-12 11:06:31 发布

VIP文章不愿透露姓名的菜鸟

最新推荐文章于 2023-09-12 11:06:31 发布

阅读量2.3k

点赞数 2

分类专栏：爬虫开发学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Homewm/article/details/77248149

版权

本文学会使用多进程爬取的map方法，json提取页面内容方法，xpath解析页面的方法：

http://tieba.baidu.com/p/3522395718?pn=1

页面代码：

<div class="l_post j_l_post l_post_bright " data-field="{"author":{"user_id":503570759,"user_name":"\u9893\u5e9f\u4e86\u8c01\u7684\u6e05\u7eaf","name_u":"%E9%A2%93%E5%BA%9F%E4%BA%86%E8%B0%81%E7%9A%84%E6%B8%85%E7%BA%AF&ie=utf-8","user_sex":2,"portrait":"47e1e9a293e5ba9fe4ba86e8b081e79a84e6b885e7baaf031e","is_like":1,"level_id":14,"level_name":"\u4f20\u5947\u679c\u7c89","cur_score":20947,"bawu":0,"props":null},"content":{"post_id":62866847607,"is_anonym":false,"open_id":"tbclient","open_type":"apple","date":"2015-01-11 16:39","vote_crypt":"","post_no":6,"type":"0","comment_num":123,"ptype":"0","is_saveface":false,"props":null,"post_index":4,"pb_tpoint":null}}">

编程代码：

def spider(url):
    html = requests.get(url)
    selector = etree.HTML(html.text)
    content_field = selector.xpath('//div[@class=&#

最低0.47元/天解锁文章

不愿透露姓名的菜鸟

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫xpath针对json代码的分析方法

本文学会使用多进程爬取的map方法，json提取页面内容方法，xpath解析页面的方法：http://tieba.baidu.com/p/3522395718?pn=1页面代码：<div class="l_post j_l_post l_post_bright " data-field="{"author":{"user_id":5
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。