基于python的豆瓣网高频影评爬虫设计

摘 要

网络爬虫是一种能自动从网络上收集信息的工具,可根据用户的需求定向采集特定信息的工具,自动在网络上获取网页源码。对于采集数量较少的工作而言,实现一个网页下载程序不会很麻烦,但是,当从网络上采集海量信息的时候,爬虫系统的实现将变得十分复杂。

相对ETL技术,网络爬虫技术仅仅处理数据抽取这一步。网络爬虫只将网络上的页面下载下来,对下载的非结构化数据没有进行处理,而直接将其保存到数据库之中。这样做的劣势在于:搜索引擎的后续操作首先要从数据库种获取到这些非结构化信息,然后再进一步的进行信息的处理。这样无形之中增添了两次操作数据库的任务量,在数据量极其庞大的背景下,会大大降低整个系统的效率。

基于豆瓣网高频影评爬虫当前最为流程的python技术来实现对爬虫各功能。

关键词:msyql;信息;python;高频影评;爬虫

目 录

本 科 生 毕 业 论 文(设计)II

题目:基于python的豆瓣网高频影评爬虫设计II

摘 要III

AbstractIV

第一章 概述1

1.1 研究背景1

1.2 目的及意义1

1.3 系统体系结构2

1.4 Python技术3

第二章 系统需求分析4

2.1可行性分析4

2.1.1经济上的可行性4

2.1.2技术上的可行性4

2.1.3操作上的可行性4

2.2功能需求分析4

2.3 系统用例图5

2.4 业务流程分析6

2.5 系统数据流图7

2.6 数据字典9

第三章 系统总体设计11

3.1网站功能结构图11

3.3网站开发目标11

3.4网站性能需求12

第四章 数据库设计13

4.1数据库概念结构设计13

4.2数据库逻辑结构设计14

第五章 系统详细设计16

5.1爬虫功能模块设计16

5.2 服务器数据库端18

第六章 系统测试22

6.1 测试的任务及目标22

6.1.1测试的任务22

6.1.2测试的目标22

6.2测试方案22

6.2.1模块测试23

6.2.2集成测试23

6.2.3验收测试23

6.2.4平行运行24

结 论24

致 谢25

参考文献26

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qq405425197

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值