Python简单爬虫初体验

最新推荐文章于 2022-03-02 11:39:31 发布

原创最新推荐文章于 2022-03-02 11:39:31 发布 · 358 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了一种简单的爬虫架构，包括爬虫调度端、URL管理器、网页下载器和解析器等组件。探讨了不同URL管理实现方式，如使用内存、关系数据库(MySQL)及缓存数据库(Redis)等。同时，文中还提到了网页下载和解析的技术细节，如使用Python的urllib2和BeautifulSoup等工具。

简单爬虫 : 1 不需要 cookie 访问 2 没有 ajax 的静态网页 3 没有加密

爬虫架构

爬虫调度端
uml 管理器管理已抓取的 url 集合和待抓取的 url 集合
网页下载器
网页解析器

uml 管理器

实现方式:

内存实现 set() 集合
关系数据库 MySql urls(url,is_crawled)
缓存数据库 redis set

网页下载器

会讲 uml 网页下载 html 以字符串或者文件形式存储

urllib2 Python 官方基础模块
request 第三方的库更强大

urllib2 下载网页的三种方法

网页解析器

提取有价值的数据
提取新的待爬取的 url

python 有哪几种网页解析器

正则表达式
html.parser Python自带
BesutifulSoup 第三方库
lxm

BesutifulSoup

to be continued …

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。