自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

风中的承诺

叶底藏花一度,梦里踏雪几回。

  • 博客(7)
  • 收藏
  • 关注

原创 centos 安装twisted 报错error: command 'gcc' failed with exit status 1

我的环境是 centos + python3.4 安装twisted报错,error: command ‘gcc’ failed with exit status 1 解决办法: yum install python34-devel安装完了就好了,针对这个问题,网上的版本太多,但是好像只有这个适合我

2018-01-30 17:03:22 855

原创 python虚拟环境配置

为了使开发环境互不影响,我们应该使用虚拟环境帮助我们去进行开发。 第一步:安装virtualenv     直接pip install virtualenv即可 第二步:使用virtualenvwrapper管理工具来管理我们的虚拟环境      pip install virtualenvwrapper 第三步: 编辑家目录下的 .bashrc # 虚拟环境存放位置expo

2018-01-28 13:57:57 624

原创 爬虫常用的小工具(谷歌插件)

为了方便爬虫代码的快速编写,及业务功能实现,现分享三个我常用的谷歌插件。 1. xpath,全名XPath Helper 在QUERY里可直接写XPATH规则,获取想要的数据 2. JSON-handle 此工具可把通过ajax请求网页的返回数据直接转换成比较好看的json格式,方便我们分析数据。 3.User-Agent Swicher 这个工具可直接修改

2018-01-18 19:57:49 17538

原创 安装Twisted报错:Microsoft Visual C++ 14.0 is required

安装Twisted报错如下: 解决方法:   1.进入http://landinghub.visualstudio.com/visual-cpp-build-tools页面    2.点击下载即可  3.一路next安装就可以啦! ps: 百度云下载:https://pan.baidu.com/s/1OZUrLvFSIXKkhRF7DOsvPA 密码:14js...

2018-01-16 11:38:20 1666

原创 快速解决No module named 'win32api'

启动scrapy的时候报这个错误,可使用pip install pypiwin32,是不是很方便呢

2018-01-16 10:48:39 3566 1

原创 json数据键值对两端没有引号怎么转字典

最近碰到一个网站,返回的数据巨恶心,如果用正则或者其它的方法一个一个找规则替换,非常麻烦。直接使用json.loads肯定是会报错的。   返回数据如下,具体多恶心,自己试一试就知道了!{ serverSeconds : 1515659363, last_time : 1515659104, path : [{title : "全部", id : "89", cType : "c

2018-01-13 20:08:42 3325

原创 针对文章内容进行去重

最近公司项目抓取新闻板块内容,但是多个网站之间,重复新闻的概率很高(因为大多数新闻网站的内容都是互相爬取的),所以我自己想了一个针对内容的去重方法。   大概思路是: 取文章当中最长的3句话(当然这个值可以自己随意指定),默认只接收列表,然后进行hash,把hash值存储在redis中,因为相同的内容生成hash值是一样,其实去重原理就跟scrapy-redis很类似…   具体实现代

2018-01-13 19:23:15 2458

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除