我是用anaconda安装的scrapy
安装完成,使用scrapy 建立爬虫工程,之后把工程文件夹整个移动到ecipse,配置下run configure就可以运行了
初步了解了下xpath语法,会简单地使用xpath抠取网页里面的内容
例子: //td[@class='hello'] 选取所有class标签为hello的td节点
//td[1] 选取第一个td节点
当然也可以嵌套搜索
例子: parent = response.xpath('//td[@class="test"]')
child = parent.xpath('.//div[1]/text()')
记得使用extract()方法把结果转换为list
学习了结合item和pipeline处理爬取到的数据
这个pipeline是要在setting文档里面声明的,前面是类名,后面是优先级,很有趣
收工!