爬虫的概念简述
爬虫有什么分类
- 通用网络爬虫
- 聚焦网络爬虫
- 增量式网络爬虫
- Deep Web 爬虫
爬虫的基本流程
- 发起请求
- 获取响应内容
- 解析内容
即
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储
爬取网站需要注意什么
爬取网页具有三大风险,即性能骚扰,法律风险,隐私泄露。我们应遵守Robots协议。
Robots协议:
obots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。遵守Robots协议能减少违法风险。
什么是数据解析?爬虫一般用什么来处理?
数据解析:
有耐心有耐心的一步一步查找、排除就会提取出目标信息。
处理方式:
一是通过正则表达式,在python中就是利用re模块;二是xpath;三是利用BeautifulSoup。
爬取网站首页
- 用百度和搜狗来举例子
- 百度爬取首页会出现乱码,需要在获取数据后对其的编码格式修改成utf-8。
爬取搜狗首页
import requests
"""
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储
"""
url = 'https://www.sogou.com/'
response = requests.get(url)
text = response.text
print(text)
with open('./sogou.html','w',encoding='utf-8') as f :
f.write(text)
print("数据爬取结束!!!!!")
爬取百度首页
import requests
"""
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储
"""
url = 'https://www.baidu.com/'
response = requests.get(url)
text = response.text
print(text)
with open('./baidu.html','w',encoding='utf-8') as f :
f.write(text)
print("数据爬取结束!!!!!")