python
werben
只用一样东西,不明白它的道理,实在不明智。
展开
-
关于SCRAPY运行多个SPIDER的问题
最近在写爬取新闻的爬虫,但是发现scrapy不支持一次同时启动多个spider,到网上查找了各种资料,可能是版本的问题均不得法。有说用scrapyd来调度scrapy的,也搭建试用了一下scrapyd,感觉还是有点麻烦,用法有点别扭。还是自己从源码下手,既然能调用指定的spider,为什么不能同时执行多个spider呢?在spider的parse(self, respons原创 2017-08-18 13:41:30 · 14451 阅读 · 10 评论 -
基于python Scrapy的爬虫——爬取某网站新闻内容
【完整源码】https://github.com/beng0305/ThirtySixSpider【环境】python 2.7 scrapy 1.4 PhantomJS Pyodbc sqlserver 2008采用PhantomJS 来获取js动态内容,虽然速度会相当慢,但是也是windows系统上不得已的选择。网上谈到的方式也是五花八门,尝试了用scrapy-splash,据说速度原创 2017-07-27 15:09:32 · 9782 阅读 · 0 评论 -
关于python识别二维码的问题
识别二维码需要用到zbar库,在win10上安装非官方的集成包没有问题,能import到zbar库但是由于我们服务器是windows server 2003 64bit 那么问题就来了,环境、环境、头疼的环境,安装zbar python库的时候遇到各种坑,后来采用了一种委婉的解决方式,就是安装zbar的windows程序,用调用exe的方式来识别验证码 # 通过调用zbar的ex原创 2017-09-07 09:16:07 · 3139 阅读 · 1 评论 -
python scrapy爬取微信公众号文章的爬虫
微信公众号文章爬取器从搜狗微信公众号入口爬取公众号新闻列表支持爬取新闻标题、Icon、作者、时间等支持文章内容图片下载替换支持去掉含有二维码的图片支持去掉带有超链接的html 标签支持保存数据到数据库sql server二维码识别采用zbar,支持用python zbar插件和用zbar的windows exe两种方式解析二维码微信文原创 2017-09-07 10:35:53 · 7292 阅读 · 1 评论 -
关于scrapy新闻爬虫,对新闻网页内容进行编辑的问题
一般内容一般某一个网站的新闻页面,标题,作者,日期这几个一般肯定是固定格式的,意思就是同一个网站的新闻“标题”,“作者”都会放在固定html标签里,且标签的class或者id都是有理可依的,而新闻内容一般也会放到一个固定id或者class的div里,已投资界的新闻网页为例,如这篇文章:徒子文化完成数千万人民币A轮融资,腾讯出资获取标题,作者,内容的代码如下:# 拼接字符串数组到原创 2017-09-01 13:55:06 · 846 阅读 · 0 评论