基于Python的网络爬虫

最新推荐文章于 2024-08-14 10:14:38 发布

ls_6468

最新推荐文章于 2024-08-14 10:14:38 发布

阅读量2.7k

点赞数 1

分类专栏： python 文章标签： python 网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ls_6468/article/details/79636087

版权

本文介绍了Python实现的网络爬虫架构，包括URL管理器、网页下载器和网页解析器。URL管理器负责管理待抓取和已抓取的URL，防止重复。网页下载器下载指定URL的网页，网页解析器则通过算法解析网页内容。主要创建了4个类：url_manager、html_downloader、html_parser和spider_main，实现了网页的下载、解析及URL管理功能。

摘要由CSDN通过智能技术生成

一个爬虫的架构包括URL管理器，网页下载器，和网页解析器，管理待抓取的URL集合和已抓取URL集合，这样是为了防止重复抓取和循环抓取。

网页下载器

将互联网上URL对应的网页下载到本地的工具。

网页解析器

将下载的网页按照某种网页形式进行解析，找到需要的内容。

算法

一共创建4个类，url_manager,html_downloader,html_parser，spider_main。主类中构造函数创建其他三个类的对象。

在主类的爬取函数中，首先完成网页的下载和解析，并将解析的符合要求的URL添加到待爬取URL集合中。

html_downloader类只有一个方法，即用来下载网页。

html_parser类，包含一个私有方法，用来寻找课程的链接网址。

url_manager类中，设置两个存放URL的集合，一个作为待爬取的URL集合，一个作为已爬取的URL集合，若仍存在待爬取的URL，在获取该URL的同时，将其从待爬取集合中删除，添加到已爬取集合，防止重复爬取。get_text()方法可以获取标签中的文本内容。

代码如下：<

最低0.47元/天解锁文章

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ls_6468 CSDN认证博客专家 CSDN认证企业博客

码龄7年

13: 原创

27万+: 周排名

93万+: 总排名

4万+: 访问

: 等级

466: 积分

6: 粉丝

8: 获赞

8: 评论

49: 收藏

私信

关注

热门文章

分类专栏

pytorch 1篇
loss 1篇
python 6篇
c/c++ 2篇
Linux 2篇
大数据 3篇
mongodb 1篇

最新评论

python实现统计文本中单词出现的频率
Tisfy: 啊，这么好的帖子
pytorch损失函数
ls_6468: 不好意思，我也不懂，你看看这个呢，我看这个博客中有论文。https://blog.csdn.net/qq_32523711/article/details/103817338
pytorch损失函数
mmmklkk: 博主主你好，请问一下tripletmarginloss中的margin是怎么来的，有公式推导吗，我看其他论文中并没有对这个margin做过多介绍
hive实现50w词频统计与ctrip数据集销售额计算
曼妮818: 能给个Ctrip数据集的链接嘛
python实现统计文本中单词出现的频率
snowman1003: 你已经使用with了，为何还要使用close()？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。