自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Redis数据类型和抽象

http://redis.io/topics/data-types-intro1. 支持的数据类型有:1) binary-safe strings2) Lists, string元素的集合,根据插入顺序排序3) Sets, 无重复的,无顺序的string元素的集合4) Sorted sets, 每个string元素都关联一个float number,称为score5) Ha

2015-09-26 13:35:08 6266

转载 转载 ---------------- vi 編輯器簡介

原文地址:  http://phys.thu.edu.tw/~kkng/comp2010/vi.htmvi 是 Linux 系統內建的全螢幕編輯器 (editor),功能強大,而且所有的 UNIX 系統上都有,操作方法也相同,是編輯器中的「國際語言」。但是對於習慣使用 word、記事本這些圖形介面編輯器的使用者而言,不是十分容易上手,不過熟悉以後,用起來十分順手,對於程式設計者而言

2015-09-26 11:20:17 6076

转载 转载 ------------- scrapy 中判断重复内容的方法(RFPDupeFilter)

转载于http://www.leyle.com/archives/scrapy_dupefilter.htmlscrapy 中判断重复内容的方法(RFPDupeFilter)作者:代码猴 时间:April 15, 2015 分类:pythonscrapy 中判断重复内容的方法(RFPDupeFilter)爬虫抓取数据时,重复肯定是存在的,scrapy

2015-09-26 10:38:31 16284

原创 使用scrapy-redis分布式爬虫 准备工作

环境: ubuntu 14.04需要Scrapy >= 1.0.0, redis-py >= 2.10.0, redis server >= 2.8.01. 安装redis server参考http://redis.io/download$ wget http://download.redis.io/releases/redis-3.0.4.tar.gz$ tar

2015-09-26 09:51:44 7794

原创 查看redis keys

>redis-cli    进入redis命令行>keys *查看redis中所有的key>del dmoz:dupefilter 删除key为dmoz:dupefilter的数据

2015-09-26 09:28:11 6456

原创 安装ssh登陆其它机器

最近做分布式抓取,需要在其它机器上安装一些软件,并运行爬虫程序。这个时候通过ssh就很方便了1. 在每个机器上安装openssh-server, openssh-client命令sudo apt-get install openssh-server openssh-client2. 在一个机子上访问其它机器 (访问局域网)命令 ssh 192.168.8.151就进去了其它机器

2015-09-25 17:10:34 6138

原创 ubuntu安装mysqldb

sudo apt-get install python2.7-mysqld

2015-09-25 13:58:16 5903

原创 python模块imghdr读图片后缀名

爬数据的时候常常遇到img标签的src中不包含图片的后缀名,如http://photos.prnewswire.com/prn/20100819/LA52539LOGO所示,这时通过imghdr模块就能够把图片的后缀名读出来例子:import urllib2import imghdrurl = 'http://photos.prnewswire.com/prn/20100

2015-09-24 17:17:16 7937

原创 scrapy xpath取包含某些特定文字的选择器,获取一个标签下的所有text(包括自身和子孙)

http://blog.scrapinghub.com/2014/07/17/xpath-tips-from-the-web-scraping-trenches/

2015-09-22 14:47:25 17795

转载 从其它机器把collections拷到本机

http://stackoverflow.com/questions/19030576/mongo-db-clonecollection-doesnt-work-in-2-4-6

2015-09-19 17:30:01 6094

原创 Scrapy Redis源码 spider分析

下载的scrapy-redis源码中的spiders.py源码非常分析:RedisSpider继承了Spider和RedisMixin这两个类,RedisMixin是用来从redis读取url的类。当我们生成一个Spider继承RedisSpider时,调用setup_redis函数,这个函数会去连接redis数据库,然后会设置signals,一个是当spider空闲的时候(signal)

2015-09-19 10:40:44 8872

原创 scrapy爬虫防止被禁止 User Agent切换

http://doc.scrapy.org/en/1.0/topics/practices.html#bans1. User Agent轮换2. 禁Cookie3. 设置大于2s的DOWNLOAD_DELAY4. 使用Google Cache (不懂)5. 使用轮换IP(还不会)6. 使用分布式下载器(不知道scrapy-redis算不算)User Agen

2015-09-18 13:19:07 24981 1

原创 scrapy settings --- 为每一个spider设置自己的pipeline

通常我们需要把数据存在数据库中,一般通过scrapy的pipeline机制实现。也算是刚用scrapy不久吧,每次写了新的pipeline,我都在project的settings中设置ITEM_PIPELINES,感觉特别麻烦,有时候还忘了。也喵到过settings有5种类型,什么Command line options (most precedence)、Settings per-spide

2015-09-18 10:59:03 18172 2

原创 Scrapy爬虫 捕获403状态码抛出CloseSpider异常

1、爬数据的时候,有时会遇到被该网站封IP等情况,response的状态码为403,那么这时候我们希望能够抛出CloseSpider的异常。2、但是如scrapy官网提到的,Scrapy默认的设置是过滤掉有问题的HTTP response(即response状态码不在200-300之间)。因此403的情况会被ignore掉,意思就是我们不是处理这个url 请求的response,直接就忽略

2015-09-17 19:33:16 19585

原创 python 连接 MySQL 数据库

import MySQLdb as mdbcon = mdb.connect(host = 'localhost', user = 'root', passwd = 'ps', db = 'scrapy')cur = con.cursor()sql = """select * from a table"""cur.execute(sql)rows = cur.fetchal

2015-09-16 11:15:51 5972

翻译 linux下安装Mongo

http://docs.mongodb.org/master/tutorial/install-mongodb-on-ubuntu/?_ga=1.200706028.316660621.1442297677

2015-09-15 17:47:14 5714

原创 MongoDB常用操作

http://blog.flappyend.com/mongoDB-document/一、启动服务,创建删除数据库和集合1. 默认mongod服务已启动2. >mongo命令进入数据库3. >use data如果不存在data这个数据库,则创建data数据库,如果data数据库存在,则返回该数据库4. >db.dropDatabase()删除数据库4. >db.

2015-09-15 16:11:32 5918

原创 Scrapy Exceptions

1. DropItem,只能在item pipeline中使用2. CloseSpiderdef parse_page(self, response): if 'Bandwidth exceeded' in response.body: raise CloseSpider('bandwidth_exceeded')3. IgnoreRequest

2015-09-09 17:56:31 6051

原创 Scrapy Settings级别 & 如何获取settings & 一些可能用到的setting

http://doc.scrapy.org/en/1.0/topics/settings.html一、有5中类型的Settings,优先级由高到低1. 命令行选项使用-s复写设置,如scrapy crawl myspider -s LOG_FILE=scrapy.log2. 每个spider的settingscrapy.spiders.Spider.custom_set

2015-09-09 17:04:46 16158

原创 Scrapy请求对象参数 & 给callback函数传附加数据 & Form请求 & Scrapy Resonse对象

Scrapy请求对象参数 & 给callback函数传附加数据 & Form请求 & Scrapy Resonse对象

2015-09-09 16:50:16 11145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除