记第一次写出自己的简单python爬虫:GCZW3

PersevereStudy

于 2018-03-11 21:17:09 发布

阅读量548

点赞数 1

分类专栏： Python学习文章标签： python 爬虫动态页面爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PersevereStudy/article/details/79520159

版权

经过一周的学习与实践，作者成功编写了自己的第一个Python爬虫，用于抓取观察者网的文章评论。关键在于通过BeautifulSoup解析HTML，找出class为'gc-comment'的div标签中的"data-id"。在解决数据类型问题上遇到挑战，最终确定使用bs4的方法提取"data-id"属性。这次经历不仅是Python学习的里程碑，也暴露了基础知识的不足，为后续学习指明方向。

摘要由CSDN通过智能技术生成

经过差不多一个星期的折腾，当然这其中也有做很多其他事情。周四写出来直接通过浏览器Network找到观察者网评论链接进行的爬虫，今天下午有折腾了差不多一下午，终于通过BeautifulSoup解析出的html中找到了data-id，也就是构造评论链接的关键。

找到了data-id之后，这样就可以把每篇文章和其评论建立联系。这样接下来的通过文章链接，直接爬评论的想法就可以水到渠成了。

而下午的主要时间都花费在怎么data-id解析提取出来。尝试了很多方法，比如先找到 clas

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。