爬虫感触

最新推荐文章于 2023-01-01 14:36:53 发布

Bobby_test

最新推荐文章于 2023-01-01 14:36:53 发布

阅读量403

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Bobby_world/article/details/80457658

版权

本文作者分享了自己从零开始学习爬虫的心路历程，从copy代码开始，逐步理解requests和BeautifulSoup库，遇到雪球网反爬机制后学会解析JSON，再到东方财富股吧的分布式爬虫，学习使用Spark处理数据。尽管感到爬虫的不通用性和挑战，但也收获了数据处理和存储的经验，对未来的工作有了新的期待。

摘要由CSDN通过智能技术生成

此文是作者记录这段时间以来，写爬虫代码的经历和感触，类似日记的玩意儿，具体技术有指明一些方向，看客随意。

最开始的时候，我是学着一篇贴吧的爬虫写的，其实都不算是写，应该是copy。

这份启蒙代码我是放在jupyter上的，算上注释，一百行出头。用的是requests和BeautifulSoup这两个库。

copy完了后我非常仔细地观察了每行代码，结合着爬取的结果，再结合着观察网页，看懂了每一行代码什么意思。

然后先改了URL爬了其他贴吧，然后改了对象爬了同一个贴吧的不同内容，然后改了结构爬了不同的网页。

感觉好像就这些内容，获取html，查找标签，存储。我好像已经会了。

你知道我要说“然而”吧？对，然而，在正式接到爬虫任务的时候，出现了一些比较奇特，或者是复杂的需求。

当时是雪球网的股票评论信息和用户信息（公开的），我是想，这不和贴吧一样吗？照猫画虎写就一份代码。代码逻辑肯定没问题了，可我一试，解析出来的却是空，我让他打印整个html，发现根本就没有我要的内容，我这个一脸萌比。经历很久的探索，我用inspection发现，network中会传输很多文件，真正的评论数据来源其实在那当中的一个json当中。于是json库进入了我的视线（过程当中也是经历了一些困难的），然后我学会了直接请求并解析json文件传递的数据。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。