爬虫感触

本文作者分享了自己从零开始学习爬虫的心路历程,从copy代码开始,逐步理解requests和BeautifulSoup库,遇到雪球网反爬机制后学会解析JSON,再到东方财富股吧的分布式爬虫,学习使用Spark处理数据。尽管感到爬虫的不通用性和挑战,但也收获了数据处理和存储的经验,对未来的工作有了新的期待。
摘要由CSDN通过智能技术生成

此文是作者记录这段时间以来,写爬虫代码的经历和感触,类似日记的玩意儿,具体技术有指明一些方向,看客随意。

最开始的时候,我是学着一篇贴吧的爬虫写的,其实都不算是写,应该是copy。

这份启蒙代码我是放在jupyter上的,算上注释,一百行出头。用的是requestsBeautifulSoup这两个库。

copy完了后我非常仔细地观察了每行代码,结合着爬取的结果,再结合着观察网页,看懂了每一行代码什么意思

然后先改了URL爬了其他贴吧,然后改了对象爬了同一个贴吧的不同内容,然后改了结构爬了不同的网页。

感觉好像就这些内容,获取html,查找标签,存储。我好像已经会了。

你知道我要说“然而”吧?对,然而,在正式接到爬虫任务的时候,出现了一些比较奇特,或者是复杂的需求。

当时是雪球网的股票评论信息和用户信息(公开的),我是想,这不和贴吧一样吗?照猫画虎写就一份代码。代码逻辑肯定没问题了,可我一试,解析出来的却是空,我让他打印整个html,发现根本就没有我要的内容,我这个一脸萌比。经历很久的探索,我用inspection发现,network中会传输很多文件,真正的评论数据来源其实在那当中的一个json当中。于是json库进入了我的视线(过程当中也是经历了一些困难的),然后我学会了直接请求并解析json文件传递的数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值