记第一次写出自己的简单python爬虫:GCZW3

经过一周的学习与实践,作者成功编写了自己的第一个Python爬虫,用于抓取观察者网的文章评论。关键在于通过BeautifulSoup解析HTML,找出class为'gc-comment'的div标签中的"data-id"。在解决数据类型问题上遇到挑战,最终确定使用bs4的方法提取"data-id"属性。这次经历不仅是Python学习的里程碑,也暴露了基础知识的不足,为后续学习指明方向。
摘要由CSDN通过智能技术生成

经过差不多一个星期的折腾,当然这其中也有做很多其他事情。周四写出来直接通过浏览器Network找到观察者网评论链接进行的爬虫,今天下午有折腾了差不多一下午,终于通过BeautifulSoup解析出的html中找到了data-id,也就是构造评论链接的关键。


找到了data-id之后,这样就可以把每篇文章和其评论建立联系。这样接下来的通过文章链接,直接爬评论的想法就可以水到渠成了。

而下午的主要时间都花费在怎么data-id解析提取出来。尝试了很多方法,比如先找到 clas

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值