- 博客(7)
- 收藏
- 关注
原创 centos 安装twisted 报错error: command 'gcc' failed with exit status 1
我的环境是 centos + python3.4 安装twisted报错,error: command ‘gcc’ failed with exit status 1 解决办法: yum install python34-devel安装完了就好了,针对这个问题,网上的版本太多,但是好像只有这个适合我
2018-01-30 17:03:22 855
原创 python虚拟环境配置
为了使开发环境互不影响,我们应该使用虚拟环境帮助我们去进行开发。 第一步:安装virtualenv 直接pip install virtualenv即可 第二步:使用virtualenvwrapper管理工具来管理我们的虚拟环境 pip install virtualenvwrapper 第三步: 编辑家目录下的 .bashrc # 虚拟环境存放位置expo
2018-01-28 13:57:57 624
原创 爬虫常用的小工具(谷歌插件)
为了方便爬虫代码的快速编写,及业务功能实现,现分享三个我常用的谷歌插件。 1. xpath,全名XPath Helper 在QUERY里可直接写XPATH规则,获取想要的数据 2. JSON-handle 此工具可把通过ajax请求网页的返回数据直接转换成比较好看的json格式,方便我们分析数据。 3.User-Agent Swicher 这个工具可直接修改
2018-01-18 19:57:49 17538
原创 安装Twisted报错:Microsoft Visual C++ 14.0 is required
安装Twisted报错如下: 解决方法: 1.进入http://landinghub.visualstudio.com/visual-cpp-build-tools页面 2.点击下载即可 3.一路next安装就可以啦! ps: 百度云下载:https://pan.baidu.com/s/1OZUrLvFSIXKkhRF7DOsvPA 密码:14js...
2018-01-16 11:38:20 1666
原创 快速解决No module named 'win32api'
启动scrapy的时候报这个错误,可使用pip install pypiwin32,是不是很方便呢
2018-01-16 10:48:39 3566 1
原创 json数据键值对两端没有引号怎么转字典
最近碰到一个网站,返回的数据巨恶心,如果用正则或者其它的方法一个一个找规则替换,非常麻烦。直接使用json.loads肯定是会报错的。 返回数据如下,具体多恶心,自己试一试就知道了!{ serverSeconds : 1515659363, last_time : 1515659104, path : [{title : "全部", id : "89", cType : "c
2018-01-13 20:08:42 3325
原创 针对文章内容进行去重
最近公司项目抓取新闻板块内容,但是多个网站之间,重复新闻的概率很高(因为大多数新闻网站的内容都是互相爬取的),所以我自己想了一个针对内容的去重方法。 大概思路是: 取文章当中最长的3句话(当然这个值可以自己随意指定),默认只接收列表,然后进行hash,把hash值存储在redis中,因为相同的内容生成hash值是一样,其实去重原理就跟scrapy-redis很类似… 具体实现代
2018-01-13 19:23:15 2458
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人