准备
先在终端输入pip install pymongo
安装第三方库
并设置好Mongodb的环境变量
启用
用管理员权限打开cmd,输入mongod.exe --dbpath=C:\data\db
(取决于你的db文件夹目录)启用Mongodb服务
启动后不要关闭窗口,另外打开一个cmd输入mongo
,这样我们就可以使用数据库了
(可以在浏览器输入http://localhost:27017/来查看数据库是否启用)
改写
在原先有的py文件上进行改写
settings.py
ITEM_PIPELINES = {
'secprg.pipelines.SecprgPipeline': 300,
}
MONGODB_HOST = "127.0.0.1"
MONGODB_PORT = 27017
MONGODB_DBNAME = "Douluo"
MONGODB_SHEETNAME = "DouluoSpider"
pipelines.py
import json
import pymongo
class SecprgPipeline(object):
def __init__(self):
host = settings["MONGODB_HOST"]
port = settings["MONGODB_PORT"]
dbname = settings["MONGODB_DBNAME"]
sheetname = settings["MONGODB_SHEETNAME"]
client = pymongo.MongoClient(host= host, port= port)
mydb = client[dbname]
self.sheet = mydb[sheetname]
def process_item(self, item, spider):
data = dict(item)
self.post.insert(data)
return item
运行
运行爬虫文件,即可将爬取的小说内容存入数据库中