python 爬虫软件第一个程序

19.爬虫

爬虫,又叫做网络爬虫,按照一定的规律,去抓取万维网上的信息的一个程序
爬虫的目的:采集数据
爬虫的分类:
通用的网络爬虫(检索引擎(百度))遵循robots协议
聚焦网络爬虫
增量式网络爬虫
累计式爬虫
深层网络爬虫(暗网)

19.1爬虫的第一个程序

#导包 网络库
 import urllib.request 
 url = "http://www.sina.com.cn" 
 #响应头 
 response = urllib.request.urlopen(url) 
 #获取数据 
 data = response.read() 
 print(data)
#导包 网络库 
import urllib.request 
url = "http://www.sina.com.cn"
 #响应头 
 response = urllib.request.urlopen(url) 
 #获取数据 
 data = response.read() 
# print(data)
 with open("sina.html","wb") as f: 
 f.write(data) 
 print("新浪信息采集完毕")
#导包 网络库 
import urllib.request 
url = "http://www.sina.com.cn" 
#响应头 
response = urllib.request.urlopen(url)
 #获取数据 
 data = response.read()
  # print(data)
   html = data.decode("utf-8") 
   with open("sina1.html","w",encoding="utf-8") as f: 
   f.write(html) 
   print("新浪信息采集完毕")

19.2 fidder的使用

抓包工具
fidder
在这里插入图片描述
选择:I Agree
在这里插入图片描述
选择安装的路径
在这里插入图片描述
选择install 进行安装
在这里插入图片描述
点击close,安装完后
打开软件,打开浏览器,百度页面,会出现很多请求
在这里插入图片描述
remove all 清除
在这里插入图片描述
打开pycharm运行代码
然后到fiddler中看到如下:
在这里插入图片描述
Accept-Encoding: identity 期望编码
User-Agent: Python-urllib/3.9 用户代理对象
Connection: close
Host: www.sina.com.cn
网页百度页面:查看源代码
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这是goolge提供的抓包工具,只能抓网页,不能抓pycharm,所以用fiddler
百度就是通过User-Agent来判断是客户端还是PC端
在这里插入图片描述
在这里插入图片描述

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值