- 博客(1)
- 收藏
- 关注
原创 scrapy爬取百度贴吧回复数、作者、标题
scrapy爬取百度贴吧回复数、作者、标题思路解决方法 思路 百度贴吧里面的源码数据被注释了,将数据里面的注释进行替换,就可以使用xpath进行提取数据! 可以看出数据都被注释了 解决方法 将最原始获得的数据,用replace方法替换掉注释符 再将替换的数据通过lxml库中的etree.HTML来解析这个网页的结构 最后再通过xpath提取数据 图中的item是scrapy中的items文件中定义引用的,具体变量可以自己命名 ...
2020-10-10 11:15:47
396
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人