Python2 爬虫（九） -- Scrapy & BeautifulSoup之再爬CSDN博文

最新推荐文章于 2023-04-12 16:45:07 发布

快乐糖果屋

最新推荐文章于 2023-04-12 16:45:07 发布

阅读量621

点赞数 1

分类专栏： python 爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_41059146/article/details/78961853

版权

序

我的Python3爬虫（五）博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。

链接： Python3 爬虫（五） -- 单线程爬取我的CSDN全部博文

上一篇 Python3 爬虫（八） -- BeautifulSoup之再次爬取CSDN博文，我们就利用BeautifulSoup4重新实现了一次爬取csdn博文的任务。

那么，既然认识了Scrapy和BeautifulSoup，哪有不让它们合作一下的道理呢？不过，既然要使用Scrapy框架，我不得不又转战Ubuntu，使用Python2.7了。还是希望Python3能够尽快的支持Scrapy框架哦~

嘿嘿，我又不厌其烦的继续爬CSDN博文了，问我为什么

？也没啥，只不过是想做下简单对比而已，当然你也可以爬别的东西啦~~~

这次博客首页主题没变，所以就不重复展示了，参看爬虫（八）即可。

创建Scrapy项目

首先，利用命令scrapy startproject csdnSpider创建我们的爬虫项目；

然后，在spiders目录下，创建CSDNSpider.py文件，这是我们主程序所在文件，目录结构如下：

定义Item

找到并打开items.py文件，定义我们需要爬取的元素：

[python]view plain copy 
     
 # -*- coding: utf-8 -*-  
   
 # Define here the models for your scraped items  
 #  
 # See documentation in:  
 # http://doc.scrapy.org/en/latest/topics/items.html  
   
 import scrapy  
 from scrapy.item import Item,Field  
   
   
 class CsdnspiderItem(scrapy.Item):  
     # define the fields for your item here like:  
     # name = scrapy.Field()  
     pass  
   
 class PaperItem(Item):  
     title = Field() #博文标题  
     link = Field() #博文链接  
     writeTime = Field() #日志编写时间  
     readers = Field() #阅读次数  
     comments = Field() #评论数  

实现CSDNSpider

打开创建的CSDNSpider.py文件，实现代码：

[python]view plain copy 
     
 # -*- coding: UTF-8 -*-

最低0.47元/天解锁文章

快乐糖果屋

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python2 爬虫（九） -- Scrapy & BeautifulSoup之再爬CSDN博文

序我的Python3爬虫（五）博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。链接：Python3 爬虫（五） -- 单线程爬取我的CSDN全部博文上一篇Python3 爬虫（八） -- BeautifulSoup之再次爬取CSDN博文，我们就利用BeautifulSoup4重新实现了一次爬取csdn博文的任务。那么，既然认识
复制链接

扫一扫

专栏目录