1.前言
1、什么是爬虫:
-通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
2、爬虫究竟是合法还是违法的?
-在法制中是不被禁止
-具有违法风险
3、爬虫带来的风险可以体现在如下2个方面:
-爬虫干扰了被访问网络的正常运营
-爬虫抓取了收到法律保护的特定类型的数据或信息
4、如何在使用编写爬虫的过程中避免进入局子的厄运呢?
-时常的优化自己的程序,避免干扰被访问网络的正常运行
5、robots.txt协议:
-君子协议。规定了网站中哪些数据可以被爬虫哪些数据不可以被爬取。
例如:www.taobao.com/robots.txt
6、http协议
-概念:就是服务器和客户端进行数据交互的一种形式 。
常用请求头信息:
-User-Agent:请求载体的身份标识
-Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
-Content-Type:服务器响应回客户端的数据类型
-在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私商业机密等敏感内容需要及时停止爬取或传播
7、https协议:
-安全的超文本传输协议
加密方式:
-对称密钥加密
-非对称密钥加密
-证书秘钥加密
2、编程
1、requests模块:模拟浏览器发请求
2、如何使用:(requests模块的编码流程)
-指定url
-发起请求
-获取响应数据
-持久化存储
3、环境安装:
pip install requests
4、实战编码:
-需求:爬取搜狗首页的页面数据
import requests
#st1: 指定url
url='https://www.sogou.com/'
#st2: 发起请求
#get方法会返回一个响应对象
response=requests.get(url=url)
#step3:获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
#step4:持久化存储
with open('./sougou.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据结束')
实战巩固
-需求:爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
#UA:User-Agent (请求载体的身份标识)
#UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体标识为某一款浏览器
#说明该请求是一个正常的请求。但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示
#该请求为不正常的请求(爬虫),则服务器端就很有可能拒绝该次请求。
#UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器
import requests
#UA伪装:将对应的User-Agent 封装到一个字典中
headers ={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
url='https://www.sogou.com/web'
#处理url携带的参数:封装到字典中
kw = input('enter a word:')
param = {
'query':kw
}
#对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数
response = requests.get(url=url,params=param,headers=headers)
page_text=response.text
fileName=kw+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(fileName,'保存成功!!!')
持续更新中……