此文是作者记录这段时间以来,写爬虫代码的经历和感触,类似日记的玩意儿,具体技术有指明一些方向,看客随意。
最开始的时候,我是学着一篇贴吧的爬虫写的,其实都不算是写,应该是copy。
这份启蒙代码我是放在jupyter上的,算上注释,一百行出头。用的是requests和BeautifulSoup这两个库。
copy完了后我非常仔细地观察了每行代码,结合着爬取的结果,再结合着观察网页,看懂了每一行代码什么意思。
然后先改了URL爬了其他贴吧,然后改了对象爬了同一个贴吧的不同内容,然后改了结构爬了不同的网页。
感觉好像就这些内容,获取html,查找标签,存储。我好像已经会了。
你知道我要说“然而”吧?对,然而,在正式接到爬虫任务的时候,出现了一些比较奇特,或者是复杂的需求。
当时是雪球网的股票评论信息和用户信息(公开的),我是想,这不和贴吧一样吗?照猫画虎写就一份代码。代码逻辑肯定没问题了,可我一试,解析出来的却是空,我让他打印整个html,发现根本就没有我要的内容,我这个一脸萌比。经历很久的探索,我用inspection发现,network中会传输很多文件,真正的评论数据来源其实在那当中的一个json当中。于是json库进入了我的视线(过程当中也是经历了一些困难的),然后我学会了直接请求并解析json文件传递的数据。