基于python的豆瓣网高频影评爬虫设计

qq405425197

已于 2023-02-14 15:34:58 修改

阅读量765

点赞数

分类专栏： Python 文章标签： python django flask Powered by 金山文档

于 2023-02-14 14:22:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq405425197/article/details/129026196

版权

Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

摘要

网络爬虫是一种能自动从网络上收集信息的工具，可根据用户的需求定向采集特定信息的工具，自动在网络上获取网页源码。对于采集数量较少的工作而言，实现一个网页下载程序不会很麻烦，但是，当从网络上采集海量信息的时候，爬虫系统的实现将变得十分复杂。

相对ETL技术，网络爬虫技术仅仅处理数据抽取这一步。网络爬虫只将网络上的页面下载下来，对下载的非结构化数据没有进行处理，而直接将其保存到数据库之中。这样做的劣势在于：搜索引擎的后续操作首先要从数据库种获取到这些非结构化信息，然后再进一步的进行信息的处理。这样无形之中增添了两次操作数据库的任务量，在数据量极其庞大的背景下，会大大降低整个系统的效率。

基于豆瓣网高频影评爬虫当前最为流程的python技术来实现对爬虫各功能。

关键词：msyql；信息；python；高频影评；爬虫

目录

本科生毕业论文（设计）II

题目：基于python的豆瓣网高频影评爬虫设计II

摘要III

AbstractIV

第一章概述1

1．1 研究背景1

1．2 目的及意义1

1．3 系统体系结构2

1．4 Python技术3

第二章系统需求分析4

2．1可行性分析4

2.1.1经济上的可行性4

2.1.2技术上的可行性4

2.1.3操作上的可行性4

2．2功能需求分析4

2．3 系统用例图5

2．4 业务流程分析6

2．5 系统数据流图7

2．6 数据字典9

第三章　系统总体设计11

3．1网站功能结构图11

3．3网站开发目标11

3．4网站性能需求12

第四章数据库设计13

4.1数据库概念结构设计13

4.2数据库逻辑结构设计14

第五章系统详细设计16

5．1爬虫功能模块设计16

5．2 服务器数据库端18

第六章系统测试22

6.1 测试的任务及目标22

6.1.1测试的任务22

6.1.2测试的目标22

6.2测试方案22

6.2.1模块测试23

6.2.2集成测试23

6.2.3验收测试23

6.2.4平行运行24

结　论24

致谢25

参考文献26

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
2
评论
基于python的豆瓣网高频影评爬虫设计

网络爬虫是一种能自动从网络上收集信息的工具，可根据用户的需求定向采集特定信息的工具，自动在网络上获取网页源码。对于采集数量较少的工作而言，实现一个网页下载程序不会很麻烦，但是，当从网络上采集海量信息的时候，爬虫系统的实现将变得十分复杂。
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

qq405425197 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。