2016年5月26日总结

现在爬虫提交部分算是暂时写完了,总结一下


hdu是windows服务器,编码是gbk的,而我的服务器是ubuntu,编码是utf-8,如何统一编码是一个问题

暂时我理解的是这样的:

有两个操作一个叫encode 一个叫decode

encode是把二进制变成中文字符串,中文字符串是存在与内存中的,我理解他是对应的是屏幕的图形,最后要打印在屏幕上的,所以不同编码解码后的中文字符串对应的是同一个东西(个人理解,可是事实不是这样的)

requests得到的东西是http的响应数据包,从网卡撸出来的是二进制,requests这个模块会分析二进制http头部之类的玩意,然后给他的encoding属性一个编码值,这样text数据就是解码后的字符串了。而杭电requests默认的是什么iso-8859-1,但如果按这个方式解码中文就会乱码,所以:

req = requests.get(url = url , headers = self.headers , timeout = 2);
req.encoding = 'gb2312';
这样就直接就得到正确的中文字符串了,后面直接按utf-8编码解码中文也会正常显示的


再有是了解了浏览器检查元素的强大用法

直接上图


假设是post请求,Post的表单不需要抓包,在直接看http headers的时候chrome会在form data上面显示你的提交的表单,同理如果某个网站post前将数据加密了,那么表单上面也会用密文显示出来,爬虫可以直接用这个密文Post给他的地址,一样可以登陆,无需了解他的加密方式


暂时先写这么多,有时间在写

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值