山东大学创新实训项目简介

项目背景

我们计划使用NLP相关知识对数据集进行分词,关键词提取,模型训练、情感分析、热度分析对论坛内容进行关键词的提取和不同关键词热度分析并得到合理的预测模型,利用得到的预测模型模型预测不同时间段内热度较高的关键词来进行数据的关键词热度趋向的分析,并给出对应的建议。(再使用机器学习的算法对不同时间段内需要预测的主题的数据的发展情况和数据的关键词热度趋向分析结果进行联合分析,给出各个时间段的联合分析结果(和建议))。

项目技术路线

  1. 信息采集:使用爬虫从热门的web2.0网站爬取内容和ID,获取数据集。
  2. 数据预处理:对爬取的数据进行标注分类等数据的预处理,然后把数据集分为训练集、验证集、测试集。
  3. 预测模型的建立:在已有数据集的基础上,使用NLP相关知识对数据集进行分词,关键词提取,模型训练、情感分析、热度分析对数据集内容进行关键词的提取和不同关键词热度分析并得到合理的预测模型,利用得到的预测模型模型预测不同时间段内热度较高的关键词来进行趋向的分析。(再使用机器学习的算法对不同时间段内热度较高的关键词数据的发展情况和数据结果趋向分析结果进行联合分析,给出各个时间段的联合分析结果(和建议))。
  4. 结果呈现:设计软件或网站UI交互界面并实现后台调度,根据用户的输入,我们的预测模型给出结果,通过后台调度将我们的模型和用户的呈现进行交互,并将结果合理的呈现出来
  5. 系统管理:对网站以及训练模型的状态比如任务的调度、系统的状态、网址/关键字的维护等进行通过管理员界面等方式进行观测
  6. ELK构建搜索模块:
    a. Redis高
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值