python爬虫框架论文开题报告范文_基于Scrapy的分布式网络爬虫的设计与实现.doc...

摘要:飞速发展起来的网络,成就了万维网这个拥有着大量信息资源的宝藏。越来越多的人参与到了这个“宝藏”的挖掘中,如何挖掘海量数据中的价值也是当下主流的研究课题。正是这种对数据利用的强烈需求催生了网页数据采集,也就是网络爬虫技术。

网络爬虫是搜索引擎的一部分,其主要的功能就是将网络上的数据下载到本地形成一个互联网内容的本地镜像,应用十分广泛的。大数据时代,海量的数据抓取需求已经是单机集中式爬虫无法满足的。集中式爬虫的性能受限于 CPU 性能,网络 IO 和磁盘 IO 的瓶颈,已逐步被分布式网络爬虫所取代。

本论文主要研究了 Python 实现的 Scrapy 框架的主要结构和关键技术,然后研究了网页抓取的主要方法和技术细节,并介绍了非关系型内存数据在分布式网络爬虫中的应用。

本课题完成了一种基于 Scrapy 的的分布式网络爬虫的设计、实现、多机部署和测试。在前面所诉的技术研究基础上,本课题研究并设计了基于 Scrapy 的分布式网络爬虫,详细的分析介绍了几个主要模块的功能和实现,以及在两个节点上部署并测试。

关键词:网络爬虫;分布式网络爬虫;Scrapy;网页数据处理;

目录

摘要

Abstract

第一章 绪论 .1

1.1课题研究的背景 .1

1.2课题研究的意义 .2

1.3课题研究的内容 .2

第二章 网络爬虫及相关技术.3

2.1网络爬虫的概念 .3

2.1.1单机网络爬虫3

2.1.2分布式网络爬虫 .4

2.2相关技术分析 .5

2.2.1Scrapy 框架.5

2.2.2Redis 数据库.6

2.2

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值