2016年5月26日总结

calamity_coming

于 2016-05-26 19:09:46 发布

阅读量399

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/calamity_coming/article/details/51509741

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

现在爬虫提交部分算是暂时写完了，总结一下

hdu是windows服务器，编码是gbk的，而我的服务器是ubuntu，编码是utf-8,如何统一编码是一个问题

暂时我理解的是这样的：

有两个操作一个叫encode 一个叫decode

encode是把二进制变成中文字符串，中文字符串是存在与内存中的，我理解他是对应的是屏幕的图形，最后要打印在屏幕上的，所以不同编码解码后的中文字符串对应的是同一个东西（个人理解，可是事实不是这样的）

requests得到的东西是http的响应数据包，从网卡撸出来的是二进制，requests这个模块会分析二进制http头部之类的玩意，然后给他的encoding属性一个编码值，这样text数据就是解码后的字符串了。而杭电requests默认的是什么iso-8859-1,但如果按这个方式解码中文就会乱码，所以：

req = requests.get(url = url , headers = self.headers , timeout = 2);
req.encoding = 'gb2312';

这样就直接就得到正确的中文字符串了，后面直接按utf-8编码解码中文也会正常显示的

再有是了解了浏览器检查元素的强大用法

直接上图

假设是post请求，Post的表单不需要抓包，在直接看http headers的时候chrome会在form data上面显示你的提交的表单，同理如果某个网站post前将数据加密了，那么表单上面也会用密文显示出来，爬虫可以直接用这个密文Post给他的地址，一样可以登陆，无需了解他的加密方式

暂时先写这么多，有时间在写

calamity_coming

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。