scrapy爬取博客文章

最新推荐文章于 2020-09-19 17:51:00 发布

miangmiang咩

最新推荐文章于 2020-09-19 17:51:00 发布

阅读量1.8k

点赞数

分类专栏：爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/jiangjieqazwsx/article/details/48317793

版权

锦瑟无端五十弦，一弦一柱思华年。庄生晓梦迷蝴蝶，望帝春心托杜鹃。

沧海月明珠有泪，蓝田日暖玉生烟。此情可待成追忆，只是当时已惘然。

--李商隐《锦瑟》

编译环境：linux

编译器：ipython+vim

使用模块：scrapy+sqlalchemy

在我的上一篇博文使用Scrapy建立一个网站抓取器简单的总结了scrapy框架和数据库sqlalchemy的使用，接下来，通过爬取自己的博客文章来实践一下：

目的：本文中我们将建立一个从http://blog.csdn.net/jiangjieqazwsx博客页上抓取博文标题，发表时间，阅读人数信息，并将数据按我们的要求存储于数据库中。

一、建立一下scrapy项目：

在终端里输入以下命令：

$ scray startproject myblog

二、定义爬虫内容

$cd myblog/myblog

<span style="font-family: Arial, Helvetica, sans-serif;">$vim items.py</span>

进入我们的item文件，定义需要获取的内容字段，类似于类实体：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class MyblogItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field() #文章题目
    time = scrapy.Field()  #发表时间
    read = scrapy.Field()  #阅读人数

最低0.47元/天解锁文章

miangmiang咩

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
scrapy爬取博客文章

使用编译器：ipython+vim使用模块：scrapy+sqlalchemy在我的上一篇博文使用Scrapy建立一个网站抓取器简单的总结了scrapy框架和数据库sqlalchemy的使用，接下来，通过爬取自己的博客文章来实践一下：
复制链接

扫一扫