python舆情系统开发_舆情系统开发

1.背景介绍:

针对天涯论坛(区域论坛-广州687474703a2f2f6262732e7469616e79612e636e/list-329-1.shtml)或其他能够爬取大量区域信息的数据源进行数据采集,并挑选感兴趣的主题(法治)内容制定相应的规则对数据进行清洗,依据BBS发布内容的点击量、评论数、发布时间计算其受关注的影响程度,根据关注度高低对BBS帖子数据排序,将排名高的数据通过图表的形式展示出来。

2.可参考的已上线项目:

687474703a2f2f6c696e6b2e797571696e673030382e636f6d/logins.jsp

3.需求范围描述:

(1)系统包括展示层、业务层、数据库三个模块。采用django作为web服务器框架,echarts作为数据的展示框架,mysql为数据库框架技术。

(2) 展示层主要负责数和分析结果的展示及交付。要求展示爬取的10条最新舆情数据,10条关注度最高的舆情数据,并通过扇形图和折线图展示最近一周舆情情况,扇形图展示主要舆情分类比重,折线图展示数量变化情况。

(3)业务层主要包括数据采集模块、数据清洗模块、分析建模模块、搜索模块。

a)数据采集模块是基于python的爬虫程序,涉及的主要技术包括:正则化表达式、Beautiful Soup4包等(天涯论坛爬虫程序本人已开发,可以直接调用数据库数据)。

b)清洗模块是基于python的数据处理程序。需要能够清除重复样本、根据关键词字典筛选需要的数据(关键词字典由本人提供,比如去掉娱乐新闻,保留和学习教育相关内容)

c)分析建模模块是基于python算法模型,希望应用的主要技术包括:去停用词、jieba分词、词频统计、TF-IDF算法、朴素贝叶斯等算法。分析建模模块主要是分析模型的建立,将清洗后的数据根据其包含的关键词和评论浏览量通过算法计算其热度和影响程度,并将结果排序保存数据库再展示。

d)搜索模块能够在最好的展示界面中对用户提供一个关键字搜索的功能,让用户输入自己感兴趣的关键字,界面按热度和影响程度返回搜索结果。

4.重难点需求说明:

a)系统主界面需设计如下:

b) 爬取的数据信息必须都是和法治相关数据,本人可以提供关键词字典

c) 每开发一部分功能,需将源码同步到本人所提供的云服务器。

5.对开发者要求:

熟悉python开发,开发流程清晰,能够及时与我沟通开发的进程并按照需求进行相应的界面、功能修改。

6.交付要求:

a) 完成主要功能:数据的搜集、分析处理、结果展示

b) 项目需部署到本人提供的云服务器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值