爬虫
一字腾云
做最真实的自己
展开
-
python 爬虫
User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36爬虫会用到上述的信息,而上述信息相当于一个面具,让网站误以为你的爬虫是一个浏览器访问。原创 2015-09-01 20:54:33 · 563 阅读 · 0 评论 -
scrapy在爬取网页时使用随机user-agent方法
转载 默认情况下scrapy采集时只能使用一种user-agent,这样容易被网站屏蔽,下面的代码可以从预先定义的user-agent的列表中随机选择一个来采集不同的页面 在settings.py中添加以下代码DOWNLOADER_MIDDLEWARES = { 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMid转载 2015-09-16 20:58:15 · 8305 阅读 · 0 评论 -
raise KeyError("Spider not found: {}".format(spider_name)) KeyError: 'Spider not found: novelspider'
>>>runfile('D:/python/novelspider/main.py', wdir='D:/python/novelspider')Reloaded modules: novelspider.items, novelspider, novelspider.spiders, novelspider.settings, novelspider.spiders.novspider2015原创 2015-09-15 22:23:45 · 9356 阅读 · 5 评论 -
ImportError: No module named items
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\anzhuang\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 682, in runfile execf原创 2015-09-15 22:00:41 · 5716 阅读 · 0 评论 -
Python 爬虫中遇到的反爬虫问题
源网站一般会有下面几种限制 1、一定时间内单个IP访问次数,一个正常用户访问网站,除非是随意的点着玩,否则不会在一段持续时间内过快访问一个网站,持续时间也不会太长,我们可以采用大量不规则代理ip形成一个线程池,随机从代理池中选择代理,模拟访问。代理有两种,透明代理和匿名代理。2、一定时间内单个账号访问次数,如果一个人一天24小时都在访问一个数据接口,而且速度非常快,那就有可能是机器人。我们可以采用原创 2015-09-13 22:25:09 · 2997 阅读 · 0 评论 -
Python 爬虫 urllib2异常处理
异常处理1、当我们调用urllib2.urlopen的时候不会总是这么顺利,就像浏览器打开url时有时也会报 错,所以就需要我们有应对异常的处理。说到异常,我们先来了解返回的response对象的 几个常用的方法: geturl() — 返回检索的URL资源,这个是返回的真正url,通常是用来鉴定是否重定向的 info() — 返回页面的原信息就像一个字段的对象, 如headers,它以mime原创 2015-09-12 20:35:14 · 2073 阅读 · 0 评论 -
Python 爬虫 多线程爬取百度贴吧内容,并将内容存到本地
功能: 1、爬取百度贴吧内容: 回帖时间 回帖内容 回帖人 2、通过xpath来提取属性,并将提取的属性写入到txt文件中 3、多线程实现 下面是代码:# -*- coding: utf-8 -*-"""Created on Fri Sep 11 22:03:40 2015@author: wt"""from lxml import etreefrom原创 2015-09-12 13:02:13 · 1327 阅读 · 2 评论 -
Python 爬虫 raise self._value IndexError: list index out of range
Traceback (most recent call last): File "D:\Program Files (x86)\JetBrains\PyCharm Educational Edition 1.0.1\helpers\pydev\pydev_run_in_console.py", line 66, in <module> globals = run_file(file, N原创 2015-09-12 12:54:30 · 4951 阅读 · 1 评论 -
python 标准库urllib2的使用细节
转载Python标准库中有很多实用的工具类,但在具体使用时,标准文档上对使用细节描述的并不清楚,比如urllib2这个HTTP客户端库。这里总结了一些urllib2库的使用细节。proxy的设置Timeout设置在HTTP Request中加入特定的headerredirectcookie使用HTTP的PUT和DELETE方法遇到HTTP的返回码Debug Log1. proxy的转载 2015-09-11 00:10:46 · 543 阅读 · 0 评论 -
python 爬虫获取网站信息(二)
爬取网站:http://www.xici.net.co/nn 伪代码的功能是,爬取网页上的数据,通过正则表达式,对需要的数据进行提取,并将这些数据插入到数据中。 在爬取的过程中遇到了两个问题,让我一直很头疼一、之前网站还可以正常提取,但后来可能用爬虫爬取的次数多了,网站可能进行了反爬虫修改,这也在程序中有所体现。这个问题纠结了好久。二、问题_mysql_exceptions.Operationa原创 2015-09-04 22:04:40 · 1302 阅读 · 0 评论 -
python 爬虫获取网站信息(一)
爬取网站:http://www.xici.net.co/nn 获取网络代理,将代理写入本地文件,并保存import requestsfrom bs4 import BeautifulSoup#import MySQLdb#import MySQLdb.cursorsimport sysreload(sys)sys.setdefaultencoding('utf8')proxy_inf原创 2015-09-03 19:45:57 · 1769 阅读 · 0 评论 -
python 网络爬虫开源框架scrapy
转载介绍:所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓转载 2015-09-09 09:58:23 · 842 阅读 · 0 评论 -
python 错误集
AttributeError: ‘NoneType’ object has no attribute ‘findAll’在网上了找了好多,一直找不到问题出现在哪,后来把程序删除大部分,只留开头的部分,一点一点的测试,才找到问题,原来,网站设置了反爬虫,不能被爬了,所以修改程序后,就可以了。 修改见下:headers = {'User-Agent':'Mozilla/5.0 (Windows NT原创 2015-09-04 09:54:42 · 700 阅读 · 0 评论 -
scrapy KeyError: 'Spider not found: doubanmovie' FAQ
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\anzhuang\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 682, in runfile execf原创 2015-09-09 10:27:23 · 5658 阅读 · 0 评论 -
爬虫 代理问题
1Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\anzhuang\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 682, in runfile exec原创 2015-09-09 17:00:56 · 1804 阅读 · 0 评论 -
python error: [Errno 10054]
data = self._sock.recv(self._rbufsize) error: [Errno 10054]编写爬虫时,运行代码出现了如下的错误, 对一个网站使用大量的urlopen()操作,会被那个网站认为攻击行为,网站会把你封了,就有不允许下载的情况,导致urlopen()后,request.read()一直卡死在那,不能继续下去,最后会抛出这个异常。即使添加了useragent,原创 2015-09-08 19:03:42 · 10309 阅读 · 1 评论 -
scrapy [boto] ERROR: Caught exception reading instance data URLError: <urlopen error [Errno 10051] >
执行过程中出现错误:2015-09-09 11:13:26 [boto] DEBUG: Retrieving credentials from metadata server.2015-09-09 11:13:27 [boto] ERROR: Caught exception reading instance dataTraceback (most recent call last): Fi原创 2015-10-22 18:29:33 · 3382 阅读 · 3 评论