![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 76
MKKKKAA
转行要趁早
展开
-
python爬虫-雪球咨询
需注意的点: 1、雪球需要携带cookie才能访问,用session访问首页,拿到cookie保存后抓取数据; 2、解析json是一开始遇到比较难的问题,经过多次尝试后,掌握了剥洋葱的方法,将字典层层剥开即可; 源码 import requests headers = { 'User-Agent': 'Mozilla/5.0' } session = requests.Session() main_url = 'https://xueqiu.com/' session.get(main_url,原创 2020-10-29 00:51:23 · 590 阅读 · 2 评论 -
python爬虫-高能异步执行
背景 前几天看了网上的一个视频,将异步执行的,试了一下,效果杠杠的 文章地址:https://www.cnblogs.com/bobo-zhang/p/10735140.html 对比 与上一篇非异步执行的放在一起测试,立竿见影 非异步执行: -------非异步执行,爬取10个页面并写入本地,耗时3秒多 异步执行: -------异步执行,爬取10个页面并写入本地,耗时仅0.4秒 异步执行背景 转载自博客园:博客网址:https://www.cnblogs.com/bobo-zhang/p/10735原创 2020-10-28 23:14:53 · 855 阅读 · 0 评论 -
python爬取糗百段子-非异步执行
记录 最近在练习爬虫内容,慢慢记录 源码 import requests from lxml import etree headers = {'User-Agent': 'Mozilla/5.0'} page = input('请输入爬取页数:') url = 'https://www.qiushibaike.com/text/page/' + page fp = open('./qiubai_download.txt', 'w', encoding='utf-8') resp = requests.g原创 2020-10-26 22:50:06 · 133 阅读 · 1 评论 -
python抓取图片并本地存储
一、注意事项 1、抓取图片的代码较简单,有些网站拿到文字乱码,主要体现转化乱码的操作,encode(‘iso-8859-1’).decode(‘gbk’); 2、用xpath进行标签解析 二、源码 import requests from lxml import etree import os # 第一页网址:http://pic.netbian.com/4kqiche/index.html # 第二页开始的网址:http://pic.netbian.com/4kqiche/index_2.html #原创 2020-10-26 22:06:03 · 372 阅读 · 0 评论 -
python爬虫_Get_NIFDC_Data
@MKKKKAA 一、目的 本篇代码用于抓取中国食品药品检定研究院中抓取各地方批签发公示表,旨在用于交流学习,不作为商业用途,不涉及任何利益,任何与之相关的操作与作者无关。 本人初学python,以此练手,代码多有不足,欢迎交流指正。 二、说明 目前中检院共有7个地方药检所和1个中检院,共8个大目录,每个大目录下有不同月份签发的公示表,存放在小目录,即单独的页面中。 代码内已标注大部分注释,浏览基本无压力,如有错误,烦请评论指出,谢谢。 三、所用到的网址 截止发文日期,所用网址如下: 大目录: 中国食品药品原创 2020-10-18 17:37:38 · 374 阅读 · 5 评论