scrapy爬虫框架简单Demo
github地址:https://github.com/lawlite19/PythonCrawler-Scrapy-Mysql-File-Template
使用scrapy爬虫框架将数据保存Mysql数据库和文件中
settings.py
- 修改Mysql的配置信息
#Mysql数据库的配置信息
MYSQL_HOST = '127.0.0.1'
MYSQL_DBNAME = 'testdb' #数据库名字,请修改
MYSQL_USER = 'root' #数据库账号,请修改
MYSQL_PASSWD = '123456' #数据库密码,请修改
MYSQL_PORT = 3306 #数据库端口,在dbhelper中使用
- 指定pipelines
ITEM_PIPELINES = {
'webCrawler_scrapy.pipelines.WebcrawlerScrapyPipeline': 300,#保存到mysql数据库
'webCrawler_scrapy.pipelines.JsonWithEncodingPipeline': 300,#保存到文件中
}
items.py
- 声明需要格式化处理的字段
class WebcrawlerScrapyItem(scrapy.Item):
'''定义需要格式化的内容(或是需要保存到数据库的字段)'''
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field() #修改你所需要的字段
url = scrapy.Field()
pipelines.py
一、保存到数据库的类WebcrawlerScrapyPipeline
(在settings中声明)
- 定义一个类方法
from_settings
,得到settings中的Mysql数据库配置信息,得到数据库连接池dbpool
@classmethod
def from_settings(cls,settings):