py爬虫
文章平均质量分 52
IT_maisui
一直在学习,现在是小白,未来是大大白
展开
-
请求对象的定制——py
代理,简称UA,他是一个特殊的 字符串头,是的夫使得服务器能够以识别客户使用的操作系统及版本,cpu版本,柳然其浏览器版本。浏览器内核,浏览器渲染引擎,浏览器语言,浏览器插件等。但是 urlopen方法不可以保存字典, 所以标头的ua字典不能直接传输进去,此时可以使用request方法创建一个request,在将request接入到 urlopen中。UA介绍:User Agent中文名为客户。我们可以在py中创建一个字典 来保存ua。在网页中 , 可以查看到此处的ua。原创 2023-03-04 11:40:31 · 77 阅读 · 0 评论 -
urllib的基本使用——python
使用urllib来获取百度页面的源码定义一个url,这个url就是你要访问的地址模拟浏览器向服务器发送请求获取响应中的页面的源码打印数据执行后,可以看到结果可以发现,read返回的是字节形式的二进制数据所以需要将二进制的数据转换成字符串 二进制 》》 字符串 (解码)此时需要用到decode(‘编码的格式’)改进后的代码为。原创 2023-03-04 11:39:15 · 88 阅读 · 0 评论 -
序列化和反序列化——python
序列化通过文件操作,可将字符串写入到一个本地文件,但是无法将一个对象,如字典,列表,元组直接写入到一个文件里,这是就需要将这个对象进行序列化,然后写入文件。设计一套协议,按照某种规则,把内存中的数据转换为字节序列,保存到文件,这就是序列化,反之,从文件的字节序列恢复到内存中,就是反序列化。原创 2023-03-03 21:29:01 · 59 阅读 · 0 评论