- 博客(6)
- 收藏
- 关注
原创 python爬虫-雪球咨询
需注意的点:1、雪球需要携带cookie才能访问,用session访问首页,拿到cookie保存后抓取数据;2、解析json是一开始遇到比较难的问题,经过多次尝试后,掌握了剥洋葱的方法,将字典层层剥开即可;源码import requestsheaders = { 'User-Agent': 'Mozilla/5.0'}session = requests.Session()main_url = 'https://xueqiu.com/'session.get(main_url,
2020-10-29 00:51:23 640 2
原创 python爬虫-高能异步执行
背景前几天看了网上的一个视频,将异步执行的,试了一下,效果杠杠的文章地址:https://www.cnblogs.com/bobo-zhang/p/10735140.html对比与上一篇非异步执行的放在一起测试,立竿见影非异步执行:-------非异步执行,爬取10个页面并写入本地,耗时3秒多异步执行:-------异步执行,爬取10个页面并写入本地,耗时仅0.4秒异步执行背景转载自博客园:博客网址:https://www.cnblogs.com/bobo-zhang/p/10735
2020-10-28 23:14:53 879
原创 python爬取糗百段子-非异步执行
记录最近在练习爬虫内容,慢慢记录源码import requestsfrom lxml import etreeheaders = {'User-Agent': 'Mozilla/5.0'}page = input('请输入爬取页数:')url = 'https://www.qiushibaike.com/text/page/' + pagefp = open('./qiubai_download.txt', 'w', encoding='utf-8')resp = requests.g
2020-10-26 22:50:06 161 1
原创 python抓取图片并本地存储
一、注意事项1、抓取图片的代码较简单,有些网站拿到文字乱码,主要体现转化乱码的操作,encode(‘iso-8859-1’).decode(‘gbk’);2、用xpath进行标签解析二、源码import requestsfrom lxml import etreeimport os# 第一页网址:http://pic.netbian.com/4kqiche/index.html# 第二页开始的网址:http://pic.netbian.com/4kqiche/index_2.html#
2020-10-26 22:06:03 402
原创 python爬虫_Get_NIFDC_Data
@MKKKKAA一、目的本篇代码用于抓取中国食品药品检定研究院中抓取各地方批签发公示表,旨在用于交流学习,不作为商业用途,不涉及任何利益,任何与之相关的操作与作者无关。本人初学python,以此练手,代码多有不足,欢迎交流指正。二、说明目前中检院共有7个地方药检所和1个中检院,共8个大目录,每个大目录下有不同月份签发的公示表,存放在小目录,即单独的页面中。代码内已标注大部分注释,浏览基本无压力,如有错误,烦请评论指出,谢谢。三、所用到的网址截止发文日期,所用网址如下:大目录:中国食品药品
2020-10-18 17:37:38 412 5
原创 按键精灵定时后台点击
按键精灵定时后台点击背景思路难点代码想法背景每天7点需要发送前一天编辑好的内容到指定的几个微信群思路前一天晚上将内容粘贴到每个群的对话框中,不发送判断系统时间是不是7点,true则执行命令,false继续循环获取每个微信群的窗口句柄点击发送按钮难点1、微信PC端界面只有一个句柄,无法定位到每个具体的对话框;------将需要的对话框单独拉出来可获得每个句柄2、每个对话框只...
2019-11-14 15:35:04 3716
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人