2015年09月_daidaixiong1234

原创 Redis数据类型和抽象

http://redis.io/topics/data-types-intro1. 支持的数据类型有：1） binary-safe strings2） Lists， string元素的集合，根据插入顺序排序3） Sets，无重复的，无顺序的string元素的集合4） Sorted sets，每个string元素都关联一个float number，称为score5） Ha

2015-09-26 13:35:08 6266

转载转载 ---------------- vi 編輯器簡介

原文地址： http://phys.thu.edu.tw/~kkng/comp2010/vi.htmvi 是 Linux 系統內建的全螢幕編輯器 (editor)，功能強大，而且所有的 UNIX 系統上都有，操作方法也相同，是編輯器中的「國際語言」。但是對於習慣使用 word、記事本這些圖形介面編輯器的使用者而言，不是十分容易上手，不過熟悉以後，用起來十分順手，對於程式設計者而言

2015-09-26 11:20:17 6076

转载转载 ------------- scrapy 中判断重复内容的方法(RFPDupeFilter)

转载于http://www.leyle.com/archives/scrapy_dupefilter.htmlscrapy 中判断重复内容的方法(RFPDupeFilter)作者：代码猴时间：April 15, 2015 分类：pythonscrapy 中判断重复内容的方法(RFPDupeFilter)爬虫抓取数据时，重复肯定是存在的，scrapy

2015-09-26 10:38:31 16284

原创使用scrapy-redis分布式爬虫准备工作

环境： ubuntu 14.04需要Scrapy >= 1.0.0, redis-py >= 2.10.0, redis server >= 2.8.01. 安装redis server参考http://redis.io/download$ wget http://download.redis.io/releases/redis-3.0.4.tar.gz$ tar

2015-09-26 09:51:44 7794

原创查看redis keys

>redis-cli 进入redis命令行>keys *查看redis中所有的key>del dmoz:dupefilter 删除key为dmoz:dupefilter的数据

2015-09-26 09:28:11 6456

原创安装ssh登陆其它机器

最近做分布式抓取，需要在其它机器上安装一些软件，并运行爬虫程序。这个时候通过ssh就很方便了1. 在每个机器上安装openssh-server, openssh-client命令sudo apt-get install openssh-server openssh-client2. 在一个机子上访问其它机器 (访问局域网)命令 ssh 192.168.8.151就进去了其它机器

2015-09-25 17:10:34 6138

原创 ubuntu安装mysqldb

sudo apt-get install python2.7-mysqld

2015-09-25 13:58:16 5903

原创 python模块imghdr读图片后缀名

爬数据的时候常常遇到img标签的src中不包含图片的后缀名，如http://photos.prnewswire.com/prn/20100819/LA52539LOGO所示，这时通过imghdr模块就能够把图片的后缀名读出来例子：import urllib2import imghdrurl = 'http://photos.prnewswire.com/prn/20100

2015-09-24 17:17:16 7937

原创 scrapy xpath取包含某些特定文字的选择器，获取一个标签下的所有text（包括自身和子孙）

http://blog.scrapinghub.com/2014/07/17/xpath-tips-from-the-web-scraping-trenches/

2015-09-22 14:47:25 17795

转载从其它机器把collections拷到本机

http://stackoverflow.com/questions/19030576/mongo-db-clonecollection-doesnt-work-in-2-4-6

2015-09-19 17:30:01 6094

原创 Scrapy Redis源码 spider分析

下载的scrapy-redis源码中的spiders.py源码非常分析：RedisSpider继承了Spider和RedisMixin这两个类，RedisMixin是用来从redis读取url的类。当我们生成一个Spider继承RedisSpider时，调用setup_redis函数，这个函数会去连接redis数据库，然后会设置signals，一个是当spider空闲的时候(signal)

2015-09-19 10:40:44 8872

原创 scrapy爬虫防止被禁止 User Agent切换

http://doc.scrapy.org/en/1.0/topics/practices.html#bans1. User Agent轮换2. 禁Cookie3. 设置大于2s的DOWNLOAD_DELAY4. 使用Google Cache (不懂)5. 使用轮换IP(还不会)6. 使用分布式下载器（不知道scrapy-redis算不算）User Agen

2015-09-18 13:19:07 24981 1

原创 scrapy settings --- 为每一个spider设置自己的pipeline

通常我们需要把数据存在数据库中，一般通过scrapy的pipeline机制实现。也算是刚用scrapy不久吧，每次写了新的pipeline，我都在project的settings中设置ITEM_PIPELINES，感觉特别麻烦，有时候还忘了。也喵到过settings有5种类型，什么Command line options (most precedence)、Settings per-spide

2015-09-18 10:59:03 18172 2

原创 Scrapy爬虫捕获403状态码抛出CloseSpider异常

1、爬数据的时候，有时会遇到被该网站封IP等情况，response的状态码为403，那么这时候我们希望能够抛出CloseSpider的异常。2、但是如scrapy官网提到的，Scrapy默认的设置是过滤掉有问题的HTTP response(即response状态码不在200-300之间)。因此403的情况会被ignore掉，意思就是我们不是处理这个url 请求的response，直接就忽略

2015-09-17 19:33:16 19585

原创 python 连接 MySQL 数据库

import MySQLdb as mdbcon = mdb.connect(host = 'localhost', user = 'root', passwd = 'ps', db = 'scrapy')cur = con.cursor()sql = """select * from a table"""cur.execute(sql)rows = cur.fetchal

2015-09-16 11:15:51 5972

翻译 linux下安装Mongo

http://docs.mongodb.org/master/tutorial/install-mongodb-on-ubuntu/?_ga=1.200706028.316660621.1442297677

2015-09-15 17:47:14 5714

原创 MongoDB常用操作

http://blog.flappyend.com/mongoDB-document/一、启动服务，创建删除数据库和集合1. 默认mongod服务已启动2. >mongo命令进入数据库3. >use data如果不存在data这个数据库，则创建data数据库，如果data数据库存在，则返回该数据库4. >db.dropDatabase()删除数据库4. >db.

2015-09-15 16:11:32 5918

原创 Scrapy Exceptions

1. DropItem，只能在item pipeline中使用2. CloseSpiderdef parse_page(self, response): if 'Bandwidth exceeded' in response.body: raise CloseSpider('bandwidth_exceeded')3. IgnoreRequest

2015-09-09 17:56:31 6051

原创 Scrapy Settings级别 & 如何获取settings & 一些可能用到的setting

http://doc.scrapy.org/en/1.0/topics/settings.html一、有5中类型的Settings，优先级由高到低1. 命令行选项使用-s复写设置，如scrapy crawl myspider -s LOG_FILE=scrapy.log2. 每个spider的settingscrapy.spiders.Spider.custom_set

2015-09-09 17:04:46 16158

原创 Scrapy请求对象参数 & 给callback函数传附加数据 & Form请求 & Scrapy Resonse对象

Scrapy请求对象参数 & 给callback函数传附加数据 & Form请求 & Scrapy Resonse对象

2015-09-09 16:50:16 11145

haipengdai的博客