第一周：了解python爬虫

最新推荐文章于 2024-07-10 23:54:36 发布

柠木，

最新推荐文章于 2024-07-10 23:54:36 发布

阅读量113

点赞数

分类专栏： web开发程序设计文章标签： python

本文链接：https://blog.csdn.net/qq_46301366/article/details/114305232

版权

web开发程序设计专栏收录该内容

4 篇文章 0 订阅

订阅专栏

**1.什么是爬虫：**通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

**2.反爬机制：**门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

**3.反反爬策略：**爬虫程序可以通过制定相应的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

4.爬虫基本流程：
*（1.发起请求：*通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。
*（2.解析内容：*得到的内容可能是HTML,可以用正则表达式，网页解析库进行解析，可能是Json,可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。
*（3.获取相应的内容：*如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML,Json字符串，二进制数据等类型。
*（4.保存数据：*保存形式多样，可以存为文本，也可以保存至数据库，或者保存特定格式的文件。

5.Request和Response
Request
*(1.请求方式：*主要有GET,POST二种类型，另外还有HEAD,PUT,DELETE,OPTIONS等
*（2.请求头：*包含请求时的头部信息，如User-Agent,Host,Cookies等信息
*（3.请求URL：*URL全称统一资源定位符，如一个网页文档，一张图片，一个视频等都可以用URL唯一来确定
*（4.请求体：*请求时额外携带的数据如表单提交时的表单数据
Response
*（1.响应状态：*有多种响应状态：如202代表成功，301跳转，404找不到页面，502服务器错误
*（2.响应头：*如内容类型，内容长度，服务器信息，设置Cookie等等
*（3.响应体：*最主要的部分，包含了请求资源的内容，图片，二进制数据等等

6.怎样解决JavaScript渲染的问题？
分析Ajax请求
Selenium/WebDriver
Splash
PyV8,Ghost.py

课堂练习：
第一个爬虫程序：爬取搜狗首页的页面数据
在这里插入图片描述

第二个爬虫程序：实现百度搜索爬取功能
在这里插入图片描述

柠木，

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一周：了解python爬虫

**1.什么是爬虫：**通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。**2.反爬机制：**门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。**3.反反爬策略：**爬虫程序可以通过制定相应的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。4.爬虫基本流程：*（1.发起请求：*通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。*（2.解析内容：*得到的内
复制链接

扫一扫