分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow
也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!
Scrapy是基于Python的开源爬虫框架,具体的官网档:http://doc.scrapy.org/en/latest/
除了HTML,XML的基本协议,了解xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息
xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。
为了方便使用XPaths,Scrapy提供XPathSelector 类,有两种可以选择,HtmlXPathSelector(HTML数据解析)和XmlXPathSelector(XML数据解析)。
必须通过一个 Response 对象对他们进行实例化操作。
Selector对象展示了文档的节点结构。因此,第一个实例化的selector必与根节点或者是整个目录有关 。
在Scrapy里面,Selectors 有四种基础的方法(可以查看API文档):
xpath():返回一系列的selectors,每一个select表示一个xpath参数表达式选择的节点
css():返回一系列的selectors,每一个select表示一个css参数表达式选择的节点