网络段子爬虫程序加强版-Scrapy框架

本文介绍了如何使用Scrapy爬虫框架来替代复杂的正则表达式,实现更高效、逻辑更简洁的网络段子爬虫。相较于之前的100行代码,Scrapy能简化开发并提高爬取效率。项目源码可在git地址找到,参考了包括传智播客黑马社区和Scrapy菜鸟教程等资源。
摘要由CSDN通过智能技术生成

上一篇爬虫中,https://blog.csdn.net/ai_64/article/details/90166089

代码太多,有近100行代码,还有复杂的正则表达式。

光是构造正则表达式就已经让人抓狂了。

本文使用scrapy爬虫框架,主要优点有三:

1.不用构造复杂的正则表达式。

2.爬取效率更高。

3.代码逻辑更优更简洁。

项目git地址:

git@github.com:cuanboy/scrapyTest.git

 

本文参考了以下资料

urllib2库的基本使用
https://blog.csdn.net/kingov/article/details/80173251

传智播客黑马社区
http://bbs.itheima.com/thread-344264-1-1.html

scrapy菜鸟教程
https://www.runoob.com/w3cnote/scrapy-detail.html

 

 

# -*- coding: utf-8 -*-
"""
语言版本:
python:3.7
scrapy:1
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值