![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
requests
、Lu
这个作者很懒,什么都没留下…
展开
-
requests库爬虫模拟登录的三种方式
方式一. 实例化session,使用session发送post请求进行提交表单数据模拟登录,再利用该session请求登录后才能访问的页面。注: 必须是同一个session,这也才能保持会话状态。方式二. 在请求头headers里面添加Cookie键,值为cookie字符串,字符串内容即 在浏览器手动登录完成后F12 查看对应的Cookie字符串。方式三. 在请求方法里添加cookies参数,字段值为字典形式的Cookie。注: 方式二和方式三 最大的区别就是,一个是字符串形式,一个是字典形原创 2020-07-13 11:35:35 · 389 阅读 · 0 评论 -
requests库爬虫设置代理ip
1. 代理ip的购买或者免费获取西刺免费代理IP:http://www.xicidaili.com/ 快代理:http://www.kuaidaili.com/(本人在用,用于测试时只需使用其免费代理即可) 代理云:http://www.dailiyun.com/ 2. 测试网址http://httpbin.org/ip : 该网址专门用来显示ip等信息,在做代理测试时可以爬取该网址来测试自己是否 设置成功。3. 代码实现import requests# 该网址方便...原创 2020-07-02 11:49:30 · 14356 阅读 · 0 评论 -
requests+xpath+json爬取糗事百科
(1) requests:数据爬取,import requests(2) lxml中的xpath:数据解析,from lxml import etree(3) json:数据存储,import json下面直接上代码:# json + lxml + xpath + requests 爬取 “糗事百科”from lxml import etreeimport requestsimport jsonclass QiuShiBK(object): def __init__(sel..原创 2020-07-02 11:18:16 · 8724 阅读 · 0 评论 -
requests.text和requests.content的区别
我们在利用requests库进行网络数据爬取时,通常遇到编码问题,在通过requests的get方法获取响应后,通常有response.text和response.content两种输出格式:1. response.content: 这个是直接从网络上面抓取的数据,没有经过任何解码,所以说是一个bytes类型。其实在硬盘上和网络上传输的字符串都是bytes类型。因此在利用response.content进行输出时: 我们可以利用 resonse.content.decode进行解码为unico.原创 2020-06-27 11:21:03 · 10931 阅读 · 1 评论