一个Python小白5个小时爬虫经历

最新推荐文章于 2024-08-01 17:01:52 发布

追梦IT男

最新推荐文章于 2024-08-01 17:01:52 发布

阅读量697

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wcg541/article/details/94900485

版权

环境搭建

既然用python，那么自然少不了语言环境。于是乎到官网下载了3.5版本的。安装完之后，随机选择了一个编辑器叫PyCharm，话说python编辑器还真挺多的。由于本人是小白，所以安装事项不在过多赘述。

建好项目，打开编辑器，直接开工。本来之前用C#写的时候，大体思路就是获取网页内容，然后正则匹配。后来发现网上的帖子也很多。不过在搜索过程中发现，不建议用正则来匹配HTML。有正好我的正则不太好，所以我就搜了一下HTML解析工具，果不其然，人家都做好了，直接拿来用吧。没错就是这个东东：**BeautifulSoup 。**安装也很简单，不过中间出了个小插曲，就是bs4没有。继续搜，然后需要用pip安装一下就好了。（当然我并不知道ps4和pip是什么鬼）

思路分析

博客吗，我当然就对准了博客园，于是乎，进入博客园首页，查看请求。

发送请求

当然我不知道python是怎么进行网络请求的，其中还有什么2.0和3.0的不同，中间曲曲折折了不少，最终还是写出了最简单的一段请求代码。

[外链图片转存失败(img-S4P35jiw-1562419694550)(https://upload-images.jianshu.io/upload_images/16980865-e3b7880755a16479.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/922/format/webp)]

其实博客园这个请求还是挺标准的，哈哈正好适合抓取。因为他返回的就是一段html。（如果返回json那不是更好。。。。Python资源分享秋秋裙 855408893 ,内有安装包，学习视频资料，免费直播实战案例。这里是Python学习者的聚集地，零

基础，进阶，都欢迎）

数据解析

上文已经提到了，用到的是BeautifulSoup，好处就是不用自己写正则，只要根据他的语法来写就好了，在多次的测试之后终于完成了数据的解析。先上一段HTML。然后在对应下面的代码，也许看起来更轻松一些。

通过上文的HTML代码可以看到几点。首先每一条数据都在 div(class=“post_item”)下。然后 div(“post_item_body”)下有用户信息，标题，链接，简介等信息。逐一根据样式解析即可。代码如下：

上边一堆代码下来，着实花费了我不少时间，边写边调试，边百度~~不过还好最终还是出来了。等数据都整理好之后，然后我把它保存到了txt文件里面，以供其他语言来处理。本来想写个put直接put到ElasticSearch中，奈何没成功。后边在试吧，毕竟我的重点只是导数据，不在抓取这里。

上边呢，我取了一百页的数据，也就是大概2000条做测试。

成果验收

废了好大劲终于写完那些代码之后呢，就可以享受胜利的果实了，虽然是初学者，代码写的很渣，这参考一下，那参考一下，不过还是有些收获的。运行效果如下：

生成的文件：

文件内容：

总结

一个简单的抓取程序就写完了，python还真是TM的好用。以后有空再研究研究吧。代码行数算上空行和注释总共** 100**（50+25+25）行。凑个整数好看点~~现在认识字我感觉就可以上手写程序了。这里百度一下，那里google一下，问题就解决了，程序也出来了，大功告成。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。