Python2 爬虫(九) -- Scrapy & BeautifulSoup之再爬CSDN博文

我的Python3爬虫(五)博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。
上一篇 Python3 爬虫(八) -- BeautifulSoup之再次爬取CSDN博文,我们就利用BeautifulSoup4重新实现了一次爬取csdn博文的任务。
那么,既然认识了Scrapy和BeautifulSoup,哪有不让它们合作一下的道理呢?不过,既然要使用Scrapy框架,我不得不又转战Ubuntu,使用Python2.7了。还是希望Python3能够尽快的支持Scrapy框架哦~
嘿嘿,我又不厌其烦的继续爬CSDN博文了,问我为什么 尴尬?也没啥,只不过是想做下简单对比而已,当然你也可以爬别的东西啦~~~
这次博客首页主题没变,所以就不重复展示了,参看 爬虫(八)即可。

创建Scrapy项目

首先,利用命令scrapy startproject csdnSpider创建我们的爬虫项目;
然后,在spiders目录下,创建CSDNSpider.py文件,这是我们主程序所在文件,目录结构如下:


定义Item

找到并打开items.py文件,定义我们需要爬取的元素:
[python]  view plain  copy
  1. # -*- coding: utf-8 -*-  
  2.   
  3. # Define here the models for your scraped items  
  4. #  
  5. # See documentation in:  
  6. # http://doc.scrapy.org/en/latest/topics/items.html  
  7.   
  8. import scrapy  
  9. from scrapy.item import Item,Field  
  10.   
  11.   
  12. class CsdnspiderItem(scrapy.Item):  
  13.     # define the fields for your item here like:  
  14.     # name = scrapy.Field()  
  15.     pass  
  16.   
  17. class PaperItem(Item):  
  18.     title = Field() #博文标题  
  19.     link = Field() #博文链接  
  20.     writeTime = Field() #日志编写时间  
  21.     readers = Field() #阅读次数  
  22.     comments = Field() #评论数  

实现CSDNSpider

打开创建的CSDNSpider.py文件,实现代码:
[python]  view plain  copy
  1. # -*- coding: UTF-8 -*-
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值