爬虫爬取实例与乱码的处理

爬虫的实战例子:

1.百度图片:
  百度图片是ajax的数据,其中gsm是十六进制的

2.梨视频:

  梨视频的参数filter不需要直接请求其他的参数
3.搜狐科技:

  获取搜狐科技的内容
4.QQmusic的爬取:

  获取QQmusic歌单里面的所有歌曲
5.淘宝实战:
  selenium抓取淘宝的图片

 6.彩票网站:

  抓取彩票网站的信息,并对中奖号码进行可实话呈像

7.喜马拉雅:

  获取喜马拉雅网站上面的音频

8.不羞涩网站图片的抓取:

  抓取不羞涩往网站上面的图片

源码地址:

https://github.com/pzq7025/Spider

 

乱码处理:
  此处的乱码所指的是,request.get时候的乱码,对于这种情况,获取目标网站的二进制码,在镜二进制码用decode('utf-8')进行编码

就可以解决出现的乱码,百度图片的爬取就会出现乱码。

转载于:https://www.cnblogs.com/future-dream/p/10424298.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值