爬虫基本原理

最新推荐文章于 2024-09-15 11:31:30 发布

Mr-LH

最新推荐文章于 2024-09-15 11:31:30 发布

阅读量320

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/niuchi2570/article/details/80619181

版权

python爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文介绍了爬虫的基本原理，包括请求与响应的工作流程，如何使用Python内置的urllib库和第三方库Requests进行HTTP请求。此外，还讲解了如何利用BeautifulSoup解析HTML，并通过实例展示了爬取汽车之家新闻的操作步骤。最后提到了伪造浏览器、处理POST请求以及自动登录点赞等进阶技巧。

摘要由CSDN通过智能技术生成

一、爬虫介绍

什么是爬虫：编写程序，根据URL获取网站信息（请求网站并提取数据的自动化程序）

爬虫的基本流程：
1、发起请求，通过http库向目标站点发起请求，即发送一个Request,请求可以包含额外的headers等信息，等待服务器响应。
2、获取响应内容，会得到一个response,response的内容便是索要获取的页面内容，类型可能有html,json字符串，二进制数据(如图片视频)等类型。
3、解析内容，得到的内容可能是html，可以用正则表达式，网页解析库进行解析，可能是json，可以直接转为json对象解析，可能是二进制数据，可以做保存或者进一步的处理。
4、保存数据，可以存为文本，也可以保存至数据库，或者保存特定格式的文件

浏览网页的流程

request与response

1、浏览器发送消息给该网址所在的服务器，这个过程叫做HTTP Request
2、服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容，做相应处理，然后把消息回传给浏览器，这个过程叫做HTTP Response
3、浏览器收到服务器的Response信息后，会对信息进行相应处理，然后展示

request中包含什么：

1、请求方式：主要有get和post两种类型，另外还有head,put.delete.options等
get与post区别：首先是请求参数位置的不同，get请求的参数在url里，而post请求的参数不再url中，还有就是get请求直接网址回车即可，而post请求需要构造一个表单，就像登陆窗口一样，需要添加一些信息，所以在做登陆的时候，信息不会放在url中，比较安全
2、请求url：全称叫做统一资源定位符，如一个网页文档、一张图片、一个视频等都可以用url唯一来确定
3、请求头：包含请求时的头部信息，如User-Agent、Host、Cookies等信息

4、请求体：请求时额外携带的数据，如表单提交时的表单数据

response中包含什么内容
1、响应状态：有多种状态响应，如200代表成功，301跳转，404找不到页面，502服务器错误
2、响应头：如内容类型，内容长度，服务器信息，设置cookie等等

3、响应体：最主要的部分，包含了请求资源的内容，如网页html，图片二进制数据等

爬虫能抓怎样的数据？

1、网页文本，如html文档，json格式文本等
2、图片，获取到的是二进制文件，保存为图片格式
3、视频：同为二进制文件，保存为视频格式即可

4、只要是能请求到的，都能获取

怎样来解析？

1、直接处理
2、json解析
3、正则表达式
4、BeautifulSoup解析库
5、PyQuery解析库

6、XPath解析库

怎么解决javascript渲染问题

1.分析Ajax请求
2.splash
3.selenium
4.pyv8、ghost.py
怎样保存数据？
1、文本形式：纯文本、Json、Xml等
2、关系型数据库：如MySQL\Oracle\SQLServer等具有结构化表结构形式存储
3、非关系型数据库：键值对的形式
4、二进制文件：如图片、视频、音频等等直接保存成特定格式即可
二、常用库

urllib

python内置的http请求库

urllib.request 请求模块

urllib.error 异常处理模块

urllib.parse url解析模块

urllib.roboparser rbots.txt 解析模块

相比python2变化

python2：

import urllib2

response = urllib2.urlopen("http://www.baidu.com")

python3：

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")

例子：http://localhost:8888/notebooks/urllib.ipynb

Requests

使用python实现的简单易用的http库

二、实例

（1）爬汽车之家新闻

requests

1.伪造浏览器向某个地址发送Http请求，获取返回的字符串

response = requests.get(url='地址')

response.content

response.encoding = apparent_encoding

response.text

2. bs4 解析HTML格式的字符串

soup = Beauitfulsoup('<html>......</html>','html.parser') lxml解析器

soup.find('标签名')

获取的是对象

div = soup.find(name='标签名'，id='li')

div = soup.find(name='标签名',_class ='li')

div = soup.find(name='div',attrs={'id': 'auto-channel-','class': 'id'})

div.text #获取所有文本

div.attrs #获取所有属性

div.get('href') #获取指定属性

获取的是列表

divs = soup.find(name='标签名'，id='li')

divs = soup.find(name='标签名',_class ='li')

divs = soup.find(name='div',attrs={'id': 'auto-channel-','class': 'id'})

divs[0]

（3）自动登陆抽屉然后点赞

get请求只有请求头；post请求有请求头请求体

response = requests.post(
url='xxx'
data={

}，
hearder={},
cookies={}
)

cookies_dict = response.cookies.get_dict()

注意：
伪造浏览器
请求分析

Mr-LH

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录