python的爬虫基础介绍

最新推荐文章于 2022-12-01 20:00:41 发布

Azure爱学习

最新推荐文章于 2022-12-01 20:00:41 发布

阅读量199

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28468749/article/details/78312308

版权

一：爬虫是什么

爬虫从一个URL出发，访问与它相关的URL，自动访问互联网并提取数据的程序

python爬虫的图解架构：

二：URL管理器

概念：管理待抓取的URL集合和已抓取的URL的集合

主要目的是防止重复抓取

URL管理器将URL集合可以放到３个地方：

１，python的内存中：存到set中。set（）是python的一种数据结构呀，里面的元素不重复且没有顺序　　　适合小型公司

２，关系数据库中（MySql），主要原理：建立一个表，将URL永久存储

３，缓存数据库（redis）支持set　　　支持大型数据

网页下载器：

概念：将互联网上URL对应的网页下载到本地的工具。

网页下载有两种方法：

１，urllib是python提供的基础模块

２，requests是python的第三方包，更加强大

urllib的三种下载方法：

１，用urllib.request.urlopen(url)方法

返回一个请求：response

２，添加data,http header

3,添加特殊情境的处理器

　　１：网页需要登录时才能处理用到cookie：httpcookieProcessor

2:Https加密访问：HttpsHandler

后面两种目前没有写过例子

三：网页解析器

概念：从网页中提取有价值数据的工具

网页解析器从HTML网页中爬取有价值的数据或者URL的列表

网页解析器的分类：

1，正则表达式：适用于模糊匹配

2，html.parsel

3,beautifulSoup　第三方插件

beautifulSoup是结构化解析成DOM树的模型，用find_all ,find 搜素结点，搜索节点的名称，属性，文字

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。