Python爬虫
文章平均质量分 58
松林小鼠
Innovation And Considering
展开
-
python特殊用法:filter map reduce lambda
filter(function, sequence):对sequence中的item依次执行function(item),将执行结果为True的item组成一个List/String/Tuple(取决于sequence的类型>>> def f(x): return x % 2 != 0 and x % 3 != 0 >>> filter(f, range(2, 25)) [原创 2014-03-12 20:13:50 · 662 阅读 · 0 评论 -
twisted scrapy安装
crapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结 Scrapy Pthyon爬虫框架 logo[1]构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了we转载 2014-03-27 23:56:38 · 702 阅读 · 0 评论 -
Scrapy spider代码片段
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorclass MininovaSpider(CrawlSpider): name = 'mininova.org' allowed_domains = ['mininova.org'] start_urls = ['http原创 2014-06-23 11:37:51 · 547 阅读 · 0 评论 -
scrapy解决网站对IP有限制防抓取功能
1.解决办法:原创 2014-06-23 11:17:42 · 5724 阅读 · 0 评论 -
scrapy解决爬取javascript内容
对javascript的支持有四种解决方案:1,代码模拟相关js逻辑.2,调用一个有界面的浏览器,类似各种广泛用于测试的,selenium这类.3,使用一个无界面的浏览器,各种基于webkit的,casperjs,phantomjs等等.4,结合一个js执行引擎,自己实现一个轻量级的浏览器.难度很大.对于简单的有限爬取任务,若可以通过代码模拟js逻辑,首选这种方案,例如,在原创 2014-06-23 11:21:54 · 9043 阅读 · 0 评论 -
Scrapy解决模拟登录问题
1.采用cookieJAR 发送请求之前带上cookiejar访问原创 2014-06-23 11:26:21 · 1512 阅读 · 0 评论 -
项目环境配置settings.py配置的字符串转化为Object
def load_object(path): """Load an object given its absolute object path, and return it. object can be a class, function, variable o instance. path ie: 'scrapy.contrib.downloadermiddelware.red原创 2014-06-23 14:22:47 · 972 阅读 · 0 评论