- 博客(20)
- 收藏
- 关注
原创 Redis数据类型和抽象
http://redis.io/topics/data-types-intro1. 支持的数据类型有:1) binary-safe strings2) Lists, string元素的集合,根据插入顺序排序3) Sets, 无重复的,无顺序的string元素的集合4) Sorted sets, 每个string元素都关联一个float number,称为score5) Ha
2015-09-26 13:35:08 6266
转载 转载 ---------------- vi 編輯器簡介
原文地址: http://phys.thu.edu.tw/~kkng/comp2010/vi.htmvi 是 Linux 系統內建的全螢幕編輯器 (editor),功能強大,而且所有的 UNIX 系統上都有,操作方法也相同,是編輯器中的「國際語言」。但是對於習慣使用 word、記事本這些圖形介面編輯器的使用者而言,不是十分容易上手,不過熟悉以後,用起來十分順手,對於程式設計者而言
2015-09-26 11:20:17 6076
转载 转载 ------------- scrapy 中判断重复内容的方法(RFPDupeFilter)
转载于http://www.leyle.com/archives/scrapy_dupefilter.htmlscrapy 中判断重复内容的方法(RFPDupeFilter)作者:代码猴 时间:April 15, 2015 分类:pythonscrapy 中判断重复内容的方法(RFPDupeFilter)爬虫抓取数据时,重复肯定是存在的,scrapy
2015-09-26 10:38:31 16284
原创 使用scrapy-redis分布式爬虫 准备工作
环境: ubuntu 14.04需要Scrapy >= 1.0.0, redis-py >= 2.10.0, redis server >= 2.8.01. 安装redis server参考http://redis.io/download$ wget http://download.redis.io/releases/redis-3.0.4.tar.gz$ tar
2015-09-26 09:51:44 7794
原创 查看redis keys
>redis-cli 进入redis命令行>keys *查看redis中所有的key>del dmoz:dupefilter 删除key为dmoz:dupefilter的数据
2015-09-26 09:28:11 6456
原创 安装ssh登陆其它机器
最近做分布式抓取,需要在其它机器上安装一些软件,并运行爬虫程序。这个时候通过ssh就很方便了1. 在每个机器上安装openssh-server, openssh-client命令sudo apt-get install openssh-server openssh-client2. 在一个机子上访问其它机器 (访问局域网)命令 ssh 192.168.8.151就进去了其它机器
2015-09-25 17:10:34 6138
原创 python模块imghdr读图片后缀名
爬数据的时候常常遇到img标签的src中不包含图片的后缀名,如http://photos.prnewswire.com/prn/20100819/LA52539LOGO所示,这时通过imghdr模块就能够把图片的后缀名读出来例子:import urllib2import imghdrurl = 'http://photos.prnewswire.com/prn/20100
2015-09-24 17:17:16 7937
原创 scrapy xpath取包含某些特定文字的选择器,获取一个标签下的所有text(包括自身和子孙)
http://blog.scrapinghub.com/2014/07/17/xpath-tips-from-the-web-scraping-trenches/
2015-09-22 14:47:25 17795
转载 从其它机器把collections拷到本机
http://stackoverflow.com/questions/19030576/mongo-db-clonecollection-doesnt-work-in-2-4-6
2015-09-19 17:30:01 6094
原创 Scrapy Redis源码 spider分析
下载的scrapy-redis源码中的spiders.py源码非常分析:RedisSpider继承了Spider和RedisMixin这两个类,RedisMixin是用来从redis读取url的类。当我们生成一个Spider继承RedisSpider时,调用setup_redis函数,这个函数会去连接redis数据库,然后会设置signals,一个是当spider空闲的时候(signal)
2015-09-19 10:40:44 8872
原创 scrapy爬虫防止被禁止 User Agent切换
http://doc.scrapy.org/en/1.0/topics/practices.html#bans1. User Agent轮换2. 禁Cookie3. 设置大于2s的DOWNLOAD_DELAY4. 使用Google Cache (不懂)5. 使用轮换IP(还不会)6. 使用分布式下载器(不知道scrapy-redis算不算)User Agen
2015-09-18 13:19:07 24981 1
原创 scrapy settings --- 为每一个spider设置自己的pipeline
通常我们需要把数据存在数据库中,一般通过scrapy的pipeline机制实现。也算是刚用scrapy不久吧,每次写了新的pipeline,我都在project的settings中设置ITEM_PIPELINES,感觉特别麻烦,有时候还忘了。也喵到过settings有5种类型,什么Command line options (most precedence)、Settings per-spide
2015-09-18 10:59:03 18172 2
原创 Scrapy爬虫 捕获403状态码抛出CloseSpider异常
1、爬数据的时候,有时会遇到被该网站封IP等情况,response的状态码为403,那么这时候我们希望能够抛出CloseSpider的异常。2、但是如scrapy官网提到的,Scrapy默认的设置是过滤掉有问题的HTTP response(即response状态码不在200-300之间)。因此403的情况会被ignore掉,意思就是我们不是处理这个url 请求的response,直接就忽略
2015-09-17 19:33:16 19585
原创 python 连接 MySQL 数据库
import MySQLdb as mdbcon = mdb.connect(host = 'localhost', user = 'root', passwd = 'ps', db = 'scrapy')cur = con.cursor()sql = """select * from a table"""cur.execute(sql)rows = cur.fetchal
2015-09-16 11:15:51 5972
翻译 linux下安装Mongo
http://docs.mongodb.org/master/tutorial/install-mongodb-on-ubuntu/?_ga=1.200706028.316660621.1442297677
2015-09-15 17:47:14 5714
原创 MongoDB常用操作
http://blog.flappyend.com/mongoDB-document/一、启动服务,创建删除数据库和集合1. 默认mongod服务已启动2. >mongo命令进入数据库3. >use data如果不存在data这个数据库,则创建data数据库,如果data数据库存在,则返回该数据库4. >db.dropDatabase()删除数据库4. >db.
2015-09-15 16:11:32 5918
原创 Scrapy Exceptions
1. DropItem,只能在item pipeline中使用2. CloseSpiderdef parse_page(self, response): if 'Bandwidth exceeded' in response.body: raise CloseSpider('bandwidth_exceeded')3. IgnoreRequest
2015-09-09 17:56:31 6051
原创 Scrapy Settings级别 & 如何获取settings & 一些可能用到的setting
http://doc.scrapy.org/en/1.0/topics/settings.html一、有5中类型的Settings,优先级由高到低1. 命令行选项使用-s复写设置,如scrapy crawl myspider -s LOG_FILE=scrapy.log2. 每个spider的settingscrapy.spiders.Spider.custom_set
2015-09-09 17:04:46 16158
原创 Scrapy请求对象参数 & 给callback函数传附加数据 & Form请求 & Scrapy Resonse对象
Scrapy请求对象参数 & 给callback函数传附加数据 & Form请求 & Scrapy Resonse对象
2015-09-09 16:50:16 11145
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人