简单利用python的request库把开源中国工具箱的网址爬下来（新手友好）

最新推荐文章于 2024-07-20 17:12:48 发布

Ice Timber

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量272

点赞数 1

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ICEJM/article/details/104971079

版权

代码已开源可以到github上直接下载：

https://github.com/ICEJM1020/StationMaster

开源中国工具网 http://tool.oschina.net 是一个对程序员十分友好的网站，里面有很多可供使用的在线工具。request库是python中非常简单的一个网页处理库，相比于Scrapy这样的大型爬虫库，request库更容易上手，再配合BeautifulSoup和re库的正则表达式，非常容易上手，这篇文章就以站长之家为样本，爬取下主页工具的链接网址。

一、网页分析

工具网网页非常简单，用来爬虫入门那是相当方便。当然，选择这个网站最主要的原因还是因为他真的很好用，在爬取内容的同时学一些技术也是很好的。站长值加的首页上非常简单，里面就包含了我们想要的所有东西，我们的的目标就是做成一个网站工具的目录，将工具与网站一一对应，然后用.txt文件存储起来方便使用

首先还是看分析网页，对于爬虫来说，页面简单其实并不是一件好事儿，因为爬虫主要靠的就是目标信息被拥有特征class或者id或者name的标签给包裹起来，依据这种特征找目标。

可以看看我们想要的标题和链接：

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
简单利用python的request库把开源中国工具箱的网址爬下来（新手友好）

开源中国工具网 http://tool.oschina.net是一个对程序员十分友好的网站，里面有很多可供使用的在线工具。request库是python中非常简单的一个网页处理库，相比于Scrapy这样的大型爬虫库，request库更容易上手，再配合BeautifulSoup和re库的正则表达式，非常容易上手，这篇文章就以站长之家为样本，爬取下主页工具的链接网址。一、网页分析工...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。