一、所需要的库
(1)Scrapy
(2)pymysql
二、 创建数据库和表
Create database hexun;
Use hexun;
Create table myhexun(id int(10) auto_increment primary key not null,name varchar(30),url varchar(100),hits int(15),comment int(15));
三、 创建Scrapy项目
(1)创建Scrapy项目: scrapy startproject hexunpjt
(2)创建spider爬虫: scrapy genspider -t basic Myhexunspd hexun.com
(3)开始爬取: scrapy crawl myhexunspd
或者 scrapy crawl myhexunspd --nolog
四、 items编写
import scrapy
class HexunpjtItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
#建立name存储文章名
name= scrapy.Field()
#建立url存储文章url网址
url= scrapy.Field()
#建立hits存储文章阅读数
hits= scrapy.Field()
#建立comment存储文章评论数
comment= scrapy.Field()