Python爬虫【二】认识爬虫

  1. 爬虫的工作原理

(1) 获取数据
打开网站:爬虫-寻找网站服务器 > 请求 > 服务器-返回网站内容 > 响应 > 爬虫
(2) 爬虫-处理数据
(3) 爬虫-存储数据

  1. requests获取数据

1)请求 > 服务器 > 2)响应 > res=requests.get('网站地址') > 3)将响应结果存到变量res中

  1. response对象的常用属性
res.status_code	响应的http状态码
res.text		响应内容的字符串形式
res.content		响应内容的二进制形式
res.encoding	响应内容的编码,常见的编码方式有 ASCII、GBK、UTF-8 

res.text 用于文本内容的获取、下载。
res.content 用于图片、音频、视频等二进制内容的获取、下载。

  1. 常见响应状态码
响应状态码含义例子含义
1xx消息100继续发出请求
2xx请求成功200请求成功
3xx重定向301永久重定向
4xx客户端错误404找不到资源
5xx服务端错误503服务不可用
  1. 文件操作

open()函数,第一个参数为文件名,第二个参数为文件打开模式r:只读,w:只写,a:追加,b:二进制)。
Tips:w和a模式下,如果打开的文件不存在,open()函数会自动创建一个
rb、wb、ab 表示以二进制格式打开文件用于读取、写入、追加。

(1)普通写法
file = open('test.txt', 'w')  
file.write('爬虫') 
file.close() 
&
(2)使用 with ... as ... 写法
with open('test.txt', 'w') as file:
	file.write('爬虫')
  1. 爬虫下载一个小说——孔乙己
import requests
res = requests.get('https://apiv3.shanbay.com/codetime/articles/mnvdu')
with open('孔乙己.txt', 'w') as file:
	file.write(res.text)
  1. 爬虫下载一张图片
import requests
res = requests.get('https://assets.baydn.com/baydn/public/codetime/xiaobei/info.jpg')
with open('info.jpg', 'wb') as file:
	file.write(res.content)
  1. 爬虫解码编码
import requests
res = requests.get('https://www.baidu.com')
res.encoding = 'utf-8'
print(res.text)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

假IT女

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值