python scrap_Scrap简介

最新推荐文章于 2024-08-06 10:53:24 发布

金融猎头Jerry

最新推荐文章于 2024-08-06 10:53:24 发布

阅读量235

点赞数

文章标签： python scrap

本文链接：https://blog.csdn.net/weixin_34185396/article/details/112891070

版权

原文：https://blog.csdn.net/ssw_1990/article/details/51254227

提到Python与网络爬虫，可能会想到urllib，urllib2，BeautifulSoup，Scrapy等类库，本文主要总结Scrapy与网络爬虫。Scrapy是一个功能强大的网络爬虫类库，通过命令pip install scrapy进行安装，爬取的海量数据可以通过MongoDB进行存储，有了想要的数据集后就可以对其进行分析挖掘。

1. 实现一个简单的Scrapy网络爬虫

先用Scrapy实现一个采集网页的title字段，以对Scrapy有个直观的印象。

(1)新建wikiSpider项目

scrapy startproject wikiSpider

生成的项目结构，如下所示：

─Scrapy

└─wikiSpider

│ scrapy.cfg

│

└─wikiSpider

│ items.py

│ pipelines.py

│ settings.py

│ __init__.py

│

└─spiders

__init__.py

说明：scrapy.cfg：项目配置文件；wikiSpider/items.py：项目items文件；wikiSpider/pipelines.py：项目管道文件；wikiSpider/settings.py：项目配置文件；wikiSpider/spiders：放置spider的目录。

(2)创建Article类

在items.py文件中，定义Article类，如下所示：

from scrapy import Item, Field

class Article(Item):

title = Field()

(3)创建articleSpider.py文件

在wikiSpider/wikiSpider/spiders/文件夹中创建一个articleSpider.py文件，如下所示：

from scrapy.selector import Selector

from scrapy import Spider

from wikiSpider.items import Article

class ArticleSpider(Spider):

name = "article"

allowed_domains = ["en.wikipedia.org"]

start_urls = ["http://en.wikipedia.org/wiki/Main_Page",

"http://en.wikipedia.org/wiki/Python_%28programming_language%29"]

def parse(self,response):

item = Article()

title = response.xpath('//h1/text()')[0].extract()

print("Title is: "+title)

item['title'] = title

return item

(4)运行Scrapy网络爬虫

在wikiSpider主目录中运行ArticleSpider，如下所示：

scrapy crawl article

这个爬虫首先进入start_urls中的两个页面，然后收集信息，最后停止运行。Scrapy为爬虫的start_urls属性中的每个URL创建了一个scrapy.http.Request对象，并将爬虫的parse方法指定为回调函数。scrapy.http.Response对象被返回，结果也被反回给爬虫。

如果遇到错误[scrapy] ERROR: Error downloading : u'\xd8'，需要设置settings.py文件中的ROBOTSTXT_OBEY = False即可。

2. Scrapy基础知识

Scrapy使用基于XPath和CSS表达式机制从网页中提取数据。Selector有4个基本的方法，分别是xpath()，css()，extract()，re()。

(1)xpath

xpath是Scrapy下快速提取特定信息(比如title，head，href等)的一个接口。常用的表达式和描述，如下所示：

nodename：选取此节点的所有子节点。

/：从根节点选取。

//：从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

.：选取当前节点。

..：选取当前节点的父节点。

@：选取属性。

(2)Scrapy shell