爬虫基本原理

最新推荐文章于 2022-07-26 08:01:02 发布

NongfuSpring-wu

最新推荐文章于 2022-07-26 08:01:02 发布

阅读量469

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_41690708/article/details/106006907

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细介绍了爬虫的工作原理，从确定URL到解析HTML，再到反爬虫对策，如伪装Headers、使用代理IP。还讨论了数据处理方法，包括解析HTML、JSON、图片和视频，以及如何保存不同格式的数据到数据库或文件。

摘要由CSDN通过智能技术生成

爬虫的初步了解

爬虫爬取网页数据的过程

爬虫爬取网页数据的过程

网页三大特征

网页都有自己唯一的URL（统一资源定位符）来进行定位；
网页都是使用HTML（超文本标记语言）来描述页面信息；
网页都使用HTTP/HTTPS协议来传输HTML数据；

爬虫的设计思路

1.首先确定需要爬取网页URL地址
2.通过HTTP/HTTPS协议来获取相应的HTML页面
3.提取HTML页面里有用的数据
a.如果是需要的数据就保存起来
b.如果是页面里的其他URL，那就继续执行第二步。

爬虫基本流程

发起请求
通过HTTP库向目标站点发起请求，就是发送一个Request，请求可以包含额外的header等信息，等待服务器的响应
获取响应内容
如果服务器正常响应，会得到一个Reponse,Reponse的内容便是所要获取的页面内容，类型可能有HTML，json字符串，二进制数据（如图片视频）等类型。
解析内容
得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析，可能是json，可以直接转为JSON解析对象解析，可能是二进制数据，可以做保存或者进一步处理。
保存数据
保存的形式多种多样，可以保存成文本，也可以保存到数据库，或者保存特定格式文件

反爬虫机制与对策

1 通过分析用户请求的Headers信息进行反爬虫。网站中应用的最多
2通过验证用户行为进行反爬虫，不如通过判断同一个ip在短时间内是否频繁访问对应网站等进行分析。
3通过动态页面增加爬取的难度，达到反爬虫目的。

对策

1 在爬虫中构造这些用户请求的headers信息，以此将爬虫伪装成浏览器
2 使用代理服务器并经常切换代理服务器方式，一般就能够攻克限制。
3.利用一些软件，比如selenium+phantomJS就可以攻克

反爬虫的手段：user-agent、代理、验证码、动态数据加载、加密数据

数据的选择与处理

1 网页文本如HTML文档 json格式文本
2.图片获取到的是二进制文件保存为图片格式
3.视频获取的二进制文件保存为视频格式即可
4.其他只要能请求到的，都能获取

解析方式

1 直接处理
2 json解析
3 正则表达式
4 BeautifulSoup
5 PyQuery
6 XPath

怎么解决JavaScript渲染问题

1 分析Ajax
2 Selenium、WebDriver
3.Splash
4. PyV8、Ghost.py

怎么保存数据

1 文本：纯文本、json Xml等
2, 关系型数据库如mysql 、oracle sql sever等具有结构形式存储
3. 非关系型数据库如 MongDB、Redis等key-value形式存储
4. 二进制文件如图片、视频、音频等直接保存特定的格式

NongfuSpring-wu

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫基本原理

爬虫的初步了解爬虫爬取网页数据的过程网页三大特征爬虫的设计思路爬虫基本流程反爬虫机制与对策he如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入爬虫爬取网页数据的过程网页三大特征网页都有自己唯一的URL（统一资源定位符）来进行定位；网页都是使用HTML（超文本标记语言）来描述页面信息；网页都使用
复制链接

扫一扫

专栏目录