Scrapy爬取数据存储到Mongodb数据库

最新推荐文章于 2021-06-01 22:50:55 发布

肉菇凉。

最新推荐文章于 2021-06-01 22:50:55 发布

阅读量1.1k

点赞数 3

分类专栏：爬虫数据库文章标签： Mongodb Scrapy Pymongo

本文链接：https://blog.csdn.net/qq_41139341/article/details/81664701

版权

目标：用Scrapy框架爬取帖子的编号、标题、内容、url，存储到Mongodb数据库

1.定义项目所需爬取的字段（ items.py ）

import scrapy

# 定义项目所需爬取的字段
class ComplaintspiderItem(scrapy.Item):
    # 帖子编号
    number = scrapy.Field()
    # 帖子题目
    title = scrapy.Field()
    # 帖子内容
    content = scrapy.Field()
    # 帖子链接
    url = scrapy.Field()

2.爬网页数据，取出item结构化数据（spiders/complaint.py）

import scrapy
from ComplaintSpider.items import ComplaintspiderItem

class ComplaintSpider(scrapy.Spider):
    name = 'complaint'
    # 设置爬取的域名范围，可省略，不写则表示爬取时候不限域名，结果有可能会导致爬虫失控
    allowed_domains = ['wz.sun0769.com']
    url = 'http://wz.sun0769.com/index.php/question/questionType?type=4&page='
    offset = 0
    start_urls = [url + str(offset)]

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

肉菇凉。

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Scrapy爬取数据存储到Mongodb数据库

目标：用Scrapy框架爬取帖子的编号、标题、内容、url，存储到Mongodb数据库1.定义项目所需爬取的字段（ items.py ）import scrapy# 定义项目所需爬取的字段class ComplaintspiderItem(scrapy.Item): # 帖子编号 number = scrapy.Field() # 帖子题目 title...
复制链接

扫一扫