锦瑟无端五十弦,一弦一柱思华年。庄生晓梦迷蝴蝶,望帝春心托杜鹃。
沧海月明珠有泪,蓝田日暖玉生烟。此情可待成追忆,只是当时已惘然。
--李商隐《锦瑟》
编译环境:linux
编译器:ipython+vim
使用模块:scrapy+sqlalchemy
在我的上一篇博文使用Scrapy建立一个网站抓取器简单的总结了scrapy框架和数据库sqlalchemy的使用,接下来,通过爬取自己的博客文章来实践一下:
目的:本文中我们将建立一个从http://blog.csdn.net/jiangjieqazwsx博客页上抓取博文标题,发表时间,阅读人数信息,并将数据按我们的要求存储于数据库中。
一、建立一下scrapy项目:
在终端里输入以下命令:
$ scray startproject myblog
二、定义爬虫内容
$cd myblog/myblog
<span style="font-family: Arial, Helvetica, sans-serif;">$vim items.py</span>
进入我们的item文件,定义需要获取的内容字段,类似于类实体:
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class MyblogItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field() #文章题目
time = scrapy.Field() #发表时间
read = scrapy.Field() #阅读人数