Scrapy是基于Python的开源爬虫框架,具体的官网档:http://doc.scrapy.org/en/latest/
除了HTML,XML的基本协议,了解xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息
xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。
为了方便使用XPaths,Scrapy提供XPathSelector 类,有两种可以选择,HtmlXPathSelector(HTML数据解析)和XmlXPathSelector(XML数据解析)。
必须通过一个 Response 对象对他们进行实例化操作。
Selector对象展示了文档的节点结构。因此,第一个实例化的selector必与根节点或者是整个目录有关 。
在Scrapy里面,Selectors 有四种基础的方法(可以查看API文档):
xpath():返回一系列的selectors,每一个select表示一个xpath参数表达式选择的节点
css():返回一系列的selectors,每一个select表示一个css参数表达式选择的节点
extract():返回一个unicode字符串,为选中的数据
re():返回一串一个unicode字符串,为使用正则表达式抓取出来的内容
基本的路径意义:
表达式 描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。
实验
1)、先在第一层tutorial文件夹下,在cmd中输入:
scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/
2)、现在比如我们需要抓取该网页的tittle,由于前面的shell命令已经实例化了一个selector的对象sel, 就输入 sel.xpath('//title') 获取了网页的标题。response.xpath()命令
输出如下:
[<Selector xpath='//title' data=u'<title>DMOZ - Computers: Programming: La'>]
3)、比如我们想要知道该网页下的www.****.com形式的链接,可以使用xpath 结合正则表达式re提取信息,输入 sel.xpath(‘//@href’).re("www.[0-9a-zA-Z]+\.com")
输出如下:
[u'www.facebook.com', u'www.twitter.com', u'www.brpreiss.com', u'www.brpreiss.com', u'www.techbooksforfree.com', u'www.techbooksforfree.com', u'www.freetechbooks.com', u'www.freetechbooks.com', u'www.wiley.com', u'www.wiley.com', u'www.wiley.com', u'www.wiley.com', u'www.packtpub.com', u'www.packtpub.com', u'www.informit.com', u'www.informit.com', u'www.informit.com', u'www.informit.com', u'www.informit.com', u'www.informit.com', u'www.ask.com', u'www.bing.com', u'www.google.com', u'www.ixquick.com', u'www.yandex.com']
输入response.body,你将会看到response的body部分
输入response.headers 来查看它的 header部分:
response.headers
{'Cteonnt-Length': ['46147'], 'Content-Language': ['en'], 'Set-Cookie': ['JSESSIONID=48ACB532CA38A46F84FB24C0918D54A1; Path=/; HttpOnly'], 'Server': ['Apache'], 'Date': ['Mon, 13 Mar 2017 15:11:01 GMT'], 'Content-Type': [‘text/html;charset=UTF-8']}
selector是一个筛子
旧的版本中,Shell实例化两种selectors,一个是解析HTML的 hxs 变量,一个是解析XML 的 xxs 变量。
而现在的Shell为我们准备好的selector对象,sel,可以根据返回的数据类型自动选择最佳的解析方案(XML or HTML)。
网页分析
sel.xpath('//title')
[<Selector xpath='//title' data=u'<title>DMOZ - Computers: Programming: La'>]
>>>
能把title标签取出来,用extract()和text()还可以进一步做处理。
>>> sel.xpath('//title').extract()
[u'<title>DMOZ - Computers: Programming: Languages: Python: Books</title>’]
使用如下命令
>>> sel.xpath('//title/text()')
[<Selector xpath='//title/text()' data=u'DMOZ - Computers: Programming: Languages'>]
>>> sel.xpath('//title/text()').extract()
[u'DMOZ - Computers: Programming: Languages: Python: Books']
>>> sel.xpath('//title/text()').re('(\w+):')
[u'Computers', u'Programming', u'Languages', u’Python']
这里使用里正则表达式,
获取对象列表
xpath返回了一个对象列表,
那么我们也可以直接调用这个列表中对象的属性挖掘更深的节点
sites = sel.xpath('//ul/li')
for site in sites:
title = site.xpath('a/text()').extract()
link = site.xpath('a/@href').extract()
desc = site.xpath('text()').extract()
print title, link, desc
参考链接
http://www.w3school.com.cn/xpath/