利用Scrapy框架爬取博客信息并存到mysql数据库

最新推荐文章于 2020-12-30 21:24:23 发布

三名狂客

最新推荐文章于 2020-12-30 21:24:23 发布

阅读量944

点赞数

分类专栏： python爬虫文章标签： mysql 框架博客 python爬虫 python

本文链接：https://blog.csdn.net/zuochao_2013/article/details/76512776

版权

本文介绍了如何利用Python的Scrapy爬虫框架抓取博客数据，并详细讲解了从创建数据库和表，到设置Scrapy项目，编写items、pipelines和spider的全过程。

摘要由CSDN通过智能技术生成

一、所需要的库

(1)Scrapy

(2)pymysql

二、创建数据库和表

Create database hexun;
     Use hexun;
Create table myhexun(id int(10) auto_increment primary key not null,name varchar(30),url varchar(100),hits int(15),comment int(15));

三、创建Scrapy项目

(1)创建Scrapy项目:    scrapy startproject hexunpjt 
(2)创建spider爬虫:    scrapy  genspider -t basic Myhexunspd hexun.com
(3)开始爬取:          scrapy crawl myhexunspd
               或者   scrapy crawl myhexunspd --nolog

四、 items编写

import scrapy


class HexunpjtItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
#建立name存储文章名
    name= scrapy.Field()
#建立url存储文章url网址
    url= scrapy.Field()
#建立hits存储文章阅读数
    hits= scrapy.Field()
#建立comment存储文章评论数
    comment= scrapy.Field()