2015年09月_一字腾云

12月 10月 09月 08月 07月 06月 05月 04月

原创 linux centos7 安装scarapy步骤

在Linux环境下搭建分布式爬虫，需要用到scrapy,下面是安装步骤一、配置环境1、下载Anaconda安装包下载地址http://www.continuum.io/downloads#all2、找到安装包，并将安装移动到/opt文件夹下解压缩安装sh Anaconda-2.3.0-Linux-x86_64.sh 3、下载pip安装包下载地址https://pypi.python.or

2015-09-22 13:29:34 1473

原创 redis的启动与停止可执行文件

编译好的bin文件位于源码的src的目录下，均以redis-xxx命名。其中：可执行的2进制文件共有5个： redis-benchmark #性能测试工具 redis-check-aof #aof文件修复工具 redis-check-dump #rdb文件检查工具 redis-cli #命令行客户端 redis-server #redis服务器

2015-09-17 21:03:36 555

转载 scrapy在爬取网页时使用随机user-agent方法

转载默认情况下scrapy采集时只能使用一种user-agent，这样容易被网站屏蔽，下面的代码可以从预先定义的user-agent的列表中随机选择一个来采集不同的页面在settings.py中添加以下代码DOWNLOADER_MIDDLEWARES = { 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMid

2015-09-16 20:58:15 8304

转载 linux crontab 定时执行计划命令

转载 Linux 系统上面原本就有非常多的计划性工作，因此这个系统服务是默认启动的。另外, 由于使用者自己也可以设置计划任务，所以， Linux 系统也提供了使用者控制计划任务的命令 :crontab 命令。一、crond简介 crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程，与windows下的计划任务类似，当安装完成操作系统后，默认会安装此服务工具，并且会

2015-09-16 20:31:54 566

原创 raise KeyError("Spider not found: {}".format(spider_name)) KeyError: 'Spider not found: novelspider'

>>>runfile('D:/python/novelspider/main.py', wdir='D:/python/novelspider')Reloaded modules: novelspider.items, novelspider, novelspider.spiders, novelspider.settings, novelspider.spiders.novspider2015

2015-09-15 22:23:45 9355 5

原创 ImportError: No module named items

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\anzhuang\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 682, in runfile execf

2015-09-15 22:00:41 5715

源网站一般会有下面几种限制 1、一定时间内单个IP访问次数，一个正常用户访问网站，除非是随意的点着玩，否则不会在一段持续时间内过快访问一个网站，持续时间也不会太长，我们可以采用大量不规则代理ip形成一个线程池，随机从代理池中选择代理，模拟访问。代理有两种，透明代理和匿名代理。2、一定时间内单个账号访问次数，如果一个人一天24小时都在访问一个数据接口，而且速度非常快，那就有可能是机器人。我们可以采用

2015-09-13 22:25:09 2995

原创 Python 爬虫 urllib2异常处理

异常处理1、当我们调用urllib2.urlopen的时候不会总是这么顺利，就像浏览器打开url时有时也会报错，所以就需要我们有应对异常的处理。说到异常，我们先来了解返回的response对象的几个常用的方法： geturl() — 返回检索的URL资源，这个是返回的真正url，通常是用来鉴定是否重定向的 info() — 返回页面的原信息就像一个字段的对象，如headers，它以mime

2015-09-12 20:35:14 2072

原创 Python 爬虫多线程爬取百度贴吧内容,并将内容存到本地

功能： 1、爬取百度贴吧内容：回帖时间回帖内容回帖人 2、通过xpath来提取属性，并将提取的属性写入到txt文件中 3、多线程实现下面是代码:# -*- coding: utf-8 -*-"""Created on Fri Sep 11 22:03:40 2015@author: wt"""from lxml import etreefrom

2015-09-12 13:02:13 1326 2

原创 Python 爬虫 raise self._value IndexError: list index out of range

Traceback (most recent call last): File "D:\Program Files (x86)\JetBrains\PyCharm Educational Edition 1.0.1\helpers\pydev\pydev_run_in_console.py", line 66, in <module> globals = run_file(file, N

2015-09-12 12:54:30 4947 1

转载 python 标准库urllib2的使用细节

转载Python标准库中有很多实用的工具类，但在具体使用时，标准文档上对使用细节描述的并不清楚，比如urllib2这个HTTP客户端库。这里总结了一些urllib2库的使用细节。proxy的设置Timeout设置在HTTP Request中加入特定的headerredirectcookie使用HTTP的PUT和DELETE方法遇到HTTP的返回码Debug Log1. proxy的

2015-09-11 00:10:46 543

原创常见Python异常

AssertionError assert(断言)语句失败AttributeError 试图访问一个对象没有的树形，比如foo.x，但是foo没有属性xIOError 输入/输出异常；基本上是无法打开文件ImportError 无法引入模块或

2015-09-10 20:53:34 999

原创爬虫代理问题

1Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\anzhuang\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 682, in runfile exec

2015-09-09 17:00:56 1804

原创 scrapy KeyError: 'Spider not found: doubanmovie' FAQ

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\anzhuang\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 682, in runfile execf

2015-09-09 10:27:23 5655

转载 python 网络爬虫开源框架scrapy

转载介绍：所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓

2015-09-09 09:58:23 842

原创 python error: [Errno 10054]

data = self._sock.recv(self._rbufsize) error: [Errno 10054]编写爬虫时，运行代码出现了如下的错误，对一个网站使用大量的urlopen()操作，会被那个网站认为攻击行为，网站会把你封了，就有不允许下载的情况，导致urlopen()后，request.read()一直卡死在那，不能继续下去，最后会抛出这个异常。即使添加了useragent，

2015-09-08 19:03:42 10308 1

原创 python 多线程

创建ThreadFunc类和创建Thread对象，来实现多线程。创建新线程的时候，Thread对象会调用我们的TreadFunc对象，这是会用到一个特殊的函数__call__()。由于有一个参数的元组，这时要在代码中使用apply()函数。# -*- coding: utf-8 -*-"""Created on Tue Sep 08 15:04:14 2015@author: wt"""i

2015-09-08 15:38:50 429

原创 python 爬虫获取网站信息（二）

爬取网站：http://www.xici.net.co/nn 伪代码的功能是，爬取网页上的数据，通过正则表达式，对需要的数据进行提取，并将这些数据插入到数据中。在爬取的过程中遇到了两个问题，让我一直很头疼一、之前网站还可以正常提取，但后来可能用爬虫爬取的次数多了，网站可能进行了反爬虫修改，这也在程序中有所体现。这个问题纠结了好久。二、问题_mysql_exceptions.Operationa

2015-09-04 22:04:40 1302

原创 python 错误集

AttributeError: ‘NoneType’ object has no attribute ‘findAll’在网上了找了好多，一直找不到问题出现在哪，后来把程序删除大部分，只留开头的部分，一点一点的测试，才找到问题，原来，网站设置了反爬虫，不能被爬了，所以修改程序后，就可以了。修改见下：headers = {'User-Agent':'Mozilla/5.0 (Windows NT

2015-09-04 09:54:42 700

原创 python 爬虫获取网站信息（一）

爬取网站：http://www.xici.net.co/nn 获取网络代理，将代理写入本地文件，并保存import requestsfrom bs4 import BeautifulSoup#import MySQLdb#import MySQLdb.cursorsimport sysreload(sys)sys.setdefaultencoding('utf8')proxy_inf

2015-09-03 19:45:57 1769

原创 python 爬虫

User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36爬虫会用到上述的信息，而上述信息相当于一个面具，让网站误以为你的爬虫是一个浏览器访问。

2015-09-01 20:54:33 563

原创 python bug

bug1UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)这是由于Python编码格式的原因，在导入包的后面添加下面的语句sys.setdefaultencoding(‘utf8’)设置默认编码格式为utf8bug2UnicodeEncodeError

2015-09-01 12:16:33 896