![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
wq奔跑吧!孩子
这个作者很懒,什么都没留下…
展开
-
爬虫(第一天)
爬虫的概念爬虫就是:模拟浏览器发送网络请求,获取请求响应爬虫的流程url – > 发送请求,获取响应---->提取数据—》保存获取响应 --》提取url地址,继续请求浏览器的请求过程浏览器获取的数据包含:url地址对应的响应+js+css+jpg爬虫会获取:url地址对应的响应爬虫获取的内容和elements内容不一样,进行数据提取的时候,需要根据url地址对应的响应为...原创 2019-04-03 20:56:21 · 103 阅读 · 0 评论 -
爬虫(第二天)
发送带headers的请求headers = {“User-Agent”:“从浏览器中复制”}requests.get(url,headers=headers)发送带参数的请求params = {"":""}url_temp = “不完整的URL地址”requests.get(url_temp,params=params)列表推导式In [41]: [i for i in rang...原创 2019-04-08 14:50:54 · 62 阅读 · 0 评论 -
python 爬虫 多任务方式 协程 爬取虎牙美女小姐姐
准备工作先进入虎牙直播分类颜秀把网页源码保存在meinv.html的文件中,放在pycharm 项目当前路径下。然后把爬取后的文件保存在pycharm项目当前目录下的picture文件夹下(文件夹提前生成)多任务思路:先创建卵,把卵创建完后放入列表a中再运用gevent.joinall(a)采用多任务方式下载import urllib.requestimport gevent...原创 2019-04-13 22:10:31 · 541 阅读 · 0 评论 -
python 爬虫 单任务 爬取虎牙美女小姐姐
准备工作先进入虎牙直播分类颜秀把网页源码保存在meinv.html的文件中,放在pycharm 项目当前路径下。然后把爬取后的文件保存在pycharm项目当前目录下的picture文件夹下(文件夹提前生成)import urllib.requestimport geventimport refrom gevent import monkeymonkey.patch_all()...原创 2019-04-13 22:34:44 · 374 阅读 · 1 评论 -
ConnectionError Max retries exceeded with url
做爬虫的时候遇到的问题,找了很久网上的办法都试了,没什么用,试了好久才知道!错误类型:requests.exceptions.ConnectionError: HTTPSConnectionPool(host=‘www.qiushibaike.com’, port=443): Max retries exceeded with url: /hot/page/1 (Caused by NewCo...原创 2019-04-29 10:57:36 · 1097 阅读 · 0 评论