爬虫
6丁一的猫
为时未晚
展开
-
12306余票查询(爬虫)
经常因为忙而忘记给妹子订票。 每次结果不言而喻。 登个12306查下余票其实很简单,但不知道为什么就是不想登。 所以弄了个爬虫脚本直接查询余票。希望下个女票不会这样尴尬,哈哈哈哈哈哈12306首页为: http://www.12306.cn/mormhweb/点击余票查询: 链接跳转为https://kyfw.12306.cn/otn/lcxxcx/init分析json文件得到链接为:ht原创 2016-11-10 17:03:54 · 1172 阅读 · 1 评论 -
nodejs爬虫热点新闻,明星人物(百度,微博,新浪,网易,贴吧,微博明星,百度明星)
nodejs搭建服务器端,redis缓存。爬虫爬取热点新闻,微博,百度,新浪,网易热点,今日头条,百度贴吧点击量,评论,百度以及微博名人信息以及热度指数,完成向电视台明星的推荐。目前爬虫部署在服务器端结果如下图:Support_contentid支持30个爬取热点及人物的功能,根据id返回内容。原创 2016-11-30 15:06:43 · 626 阅读 · 0 评论 -
nodejs 爬取热点明星存入mysql数据库
配置文件说明: /root/Spider/nodejs-server-server的project.json { “open_allbaidu_hot” : 1, //是否爬取所有百度热点信息 “open_allwangyi_hot”:1,//是否爬取所有网易热点信息 “open_alljinritoujiao_hot”:1,//是否爬取今日头条热点信息 “ope原创 2016-12-06 17:18:08 · 1192 阅读 · 0 评论 -
nodejs使用redis连接池
编写的爬虫出了问题,每次请求都会产生一个client。。。 但是把client放在全局又只有一个,这个挂了程序就挂了。npm install redis-connection-poolvar redisPool = require('redis-connection-pool')('myRedisPool', { host: '127.0.0.1', // default por原创 2016-12-30 16:41:55 · 9123 阅读 · 2 评论 -
天气爬虫实例
这次的例子性价比高啊,正则表达式,模拟登陆,验证码识别都会一步一步实现,教你怎么去爬取天气数据。 爬取网站为: http://data.cma.cn看到了登陆界面点击登陆发现弹出: 现在就模拟要高模拟登陆了,以及发现了没有,还有验证码。当然你牛的话可以搞深度学习识别验证码,cnn什么的,但是label起来或者找到验证码生成机制很麻烦啊。所以直接使用pytesseract,pytesser3验证原创 2017-12-28 17:05:21 · 991 阅读 · 0 评论