爬虫
HeCCXX
这个作者很懒,什么都没留下…
展开
-
scrapy 当当网书籍信息爬取存储MySQL
这里使用到MySQL,对小白还算挺友好的。当然还有其他数据库 redis、mongodb(非关系数据库) influxdb (时序数据库)一般用作监控框架,单机版免费,了解一下?废话少说,开始正题.1、先创建scrapy项目scrapy startproject dangdang2、创一个爬虫,模式basic,crawlscrapy genspider -t b...原创 2018-04-30 15:14:21 · 717 阅读 · 2 评论 -
python3 requests 12306下单环节
完成之前的登录,查票(城市编号转换之后),重头戏也是最复杂的环节来了,要完成下单,需要经过下列一系列验证,且均要通过验证,由此可见12306的反爬机制做的还是相当出色的。1、检查用户是否保持登录成功 https://kyfw.12306.cn/otn/login/checkUser2、点击预定 https://kyfw.12306.cn/otn/leftTicket/subm...原创 2018-04-27 16:37:48 · 4327 阅读 · 33 评论 -
python3 requests 12306城市中文转英文编码
我们去买车票不可能输入城市的英文代码,我们都是输入城市的中文名称,然后直接查询,下单。所以我们需要将输入的中文名称转为服务器认识的英文编码。https://kyfw.12306.cn/otn/leftTicket/inithttps://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.90...原创 2018-04-27 15:26:05 · 1250 阅读 · 1 评论 -
Python3 requests 12306查票模块
记之前的学习,再过一阵子估计忘了。。。查票不需要登录,但是支付是需要登录的,所以人为操作的话,一般是选择查票->预定->下单(下单时需要登录,出现变态二维码验证)。而我们使用爬虫可以先登录,然后一直保持登录状态,流程:登录->查票->下单(登录时完成了验证)登录模块并保持session可见之前篇章 查询url:https://kyfw.12306.cn...原创 2018-04-27 15:04:03 · 1071 阅读 · 0 评论 -
window10 +python3 + scrapy安装
依次执行下列:1、安装wheelpip install wheel 2、安装lxml 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pip install lxml-x.x.x-cp36-cp36m-win32.whl3、安装pyopensslhttps://pypi.org/proj...原创 2018-04-25 21:21:54 · 284 阅读 · 0 评论 -
python3 requests 实现12306购票登录模块
12306登录模块分析 第一次写文章,记录一下学习的内容。今天先记录登录模块的分析和实现。在博客上看见一些大佬用的是splinter webdriver写的12306购票过程。由于我之前学习了一阵子requests库,所以以下使用python3+requests实现12306购票。(当然也可以用python2 的urllib来实现) 安装requests库pip3 i...原创 2018-04-21 17:08:02 · 5864 阅读 · 12 评论