陈小峰（iefreer）的专栏

踏得网创始人，Stone 3D作者。

Scrapy

关注

关注数：文章数：9 文章阅读量：157335 文章收藏量：12

作者: 陈小峰_iefreer

创办踏得网，写了Stone、Myway、MyAvatar 3D等元宇宙引擎。

展开

Scrapy:抓取html所有特定元素的两个方法

比如要获取所有class=test的div元素，1. 用Scrapy，示范代码： def parse(self, response): hxs = Selector(response) items = [] divs = hxs.xpath('//div[@class="test"]')2. 用lxml，示范代码：from lxml impo

原创 2014-03-08 01:30:19 · 14790 阅读 · 4 评论
CentOS6.2下面安装使用Scrapy遇到的一些错误

1. 无法连接python https服务器打开防火墙iptables 443端口，确认openssl已安装2. No package 'libffi' foundyum install libffi libffi-dev3. pip install lxml error：xslt-config: not foundyum install libxslt-devel libxml2-devel p

原创 2014-03-02 02:04:31 · 12714 阅读 · 7 评论
Scrapy:抓取返回数据格式为JSON的网站内容

http://stackoverflow.com/questions/18171835/scraping-a-json-response-with-scrapy

原创 2014-03-09 02:18:06 · 26096 阅读 · 2 评论
Scrapy：Spider参数及其应用场景

Spiders可以接收参数，以改变其抓取行为。通常的应用场景是定义请求链接(start_urls)来限定抓取目标网站的某个栏目，当然参数还可以用来控制整个Spider的功能。Spider参数通过 crawl 命令的 -a 选项来传递，比如：scrapy crawl myspider -a category=electronicsSpiders通过构造函数获取参数：class MySpider(Sp

翻译 2014-03-27 00:53:39 · 6438 阅读 · 0 评论
Scrapy: 爬虫返回403错误

抓取数据时，通常调试信息是：

原创 2014-06-26 02:15:35 · 33712 阅读 · 1 评论
Scrapy: 发送带Cookie的请求

Yield发送的请求，联系你的方法。

原创 2014-06-08 21:17:44 · 36499 阅读 · 0 评论
Scrapy 0.22.2 处理XML接口数据

Scrapy的Spider支持处理HTML/XML/JSON数据，以XML为例：

原创 2014-10-10 23:54:29 · 3279 阅读 · 0 评论
Scrapy递归索引

有时候定向索引任务需要结合列表页面和内容详细页面才可以得到完整信息。

原创 2014-08-05 02:16:05 · 2860 阅读 · 0 评论
Scrapy:一次性运行多个Spiders

http://stackoverflow.com/questions/10801093/run-multiple-scrapy-spiders-at-once-using-scrapyd

原创 2014-03-07 10:39:12 · 20947 阅读 · 3 评论