爬虫的一些基本协议

爬虫使用分类

  • 通用爬虫:抓取系统中一整张页面的数据
  • 聚焦爬虫:抓取的是一整张页面中特定的局部内容,如微博页面中的评论数据
  • 增量式爬虫:监测网站中数据更新的情况,只抓取网站中最新更新的数据

Robots.txt协议(君子协议)

  • 规定了网站中哪些数据可以被爬取
  • 在网页后面加上/robots.txt是可以看到这个网页可以被爬取的数据。若是product则是不允许被爬取的

Requests模块

  • Python中原生的基于网络请求的模块。
  • 作用:模拟浏览器发送请求。
  • 使用:
    1、指定URL;
  • UA伪装
  • 请求参数处理
    2、发起请求;
    3、获取响应数据;
    4、持久化存储

解决中文乱码问题

1

url = 'https://pic.netbian.com/4kdongman/'
r = requests.get(url =url,headers=headers)
# 手动设定相应数据的编码格式
# r.encoding = 'utf-8'
page_text = r.text

2

img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
#通用处理中文乱码的解决问题
img_name.encode('iso-8859-1').decode('gbk')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值