python爬虫
文章平均质量分 52
宽客Z
这个作者很懒,什么都没留下…
展开
-
python+selenium 12306自动抢票
写在前面 又到了一年一度的春运,又要开始抢票了,因为并不是很相信XC、FZ等预约抢票,就想着自己写个脚本,但其实网上已经有很多人写了抢票程序,我为什么还要重写呢,因为12306的网页源代码是有变化的,很多人以前写的已经用不了了,也许我这个程序过一段时间也用不了了。 准备工作 1.使用writeStation.py爬取站点名和对应的简称,写入station.txt文件。以下是writeStation.py的代码和station.txt的部分截图。 #encoding=utf-8 import requests原创 2020-12-30 13:46:57 · 1257 阅读 · 1 评论 -
反爬虫:python多进程获取代理加入队列并用代理爬虫
这里写自定义目录标题写在前面主要用到的库和知识点代码写在后面 写在前面 我们都知道,免费代理网站的代理质量都不高,主要体现在,比如代理A前一秒可用,后一秒可能就用不了了。所以如果你爬取的代理池,和用这些代理访问目标网站之间的时间过长,这些代理很可能就用不了。所以我就想了一个办法,能不能用多进程一边获取代理,一边用这些代理爬虫,提高代理的利用率。 主要用到的库和知识点 requests库 fake_useragent库,伪造浏览器访问代理网站,因为怕被代理网站封了我的IP telnetlib库,测试一个代理原创 2020-06-26 17:12:29 · 241 阅读 · 0 评论 -
python+selenium+lxml爬取正方教务系统全部成绩信息并保存在excle
写在前面 最近找工作写简历,有些公司需要电子版的成绩单,但是正方教务系统好像没有下载电子版成绩单的操作,所以我想能不能自己把成绩爬取并保存下来。 准备工作 python2.7 selenium模块 lxml模块 可被selenium控制的谷歌浏览器 爬取前要自己先手动登录教务系统,让浏览器保存你的cookie,selenium模拟时就不用登录了,如果要求模拟登录,大家可以自学如何破解验证码。 ...原创 2019-05-27 00:38:08 · 874 阅读 · 0 评论