项目背景
我们计划使用NLP相关知识对数据集进行分词,关键词提取,模型训练、情感分析、热度分析对论坛内容进行关键词的提取和不同关键词热度分析并得到合理的预测模型,利用得到的预测模型模型预测不同时间段内热度较高的关键词来进行数据的关键词热度趋向的分析,并给出对应的建议。(再使用机器学习的算法对不同时间段内需要预测的主题的数据的发展情况和数据的关键词热度趋向分析结果进行联合分析,给出各个时间段的联合分析结果(和建议))。
项目技术路线
- 信息采集:使用爬虫从热门的web2.0网站爬取内容和ID,获取数据集。
- 数据预处理:对爬取的数据进行标注分类等数据的预处理,然后把数据集分为训练集、验证集、测试集。
- 预测模型的建立:在已有数据集的基础上,使用NLP相关知识对数据集进行分词,关键词提取,模型训练、情感分析、热度分析对数据集内容进行关键词的提取和不同关键词热度分析并得到合理的预测模型,利用得到的预测模型模型预测不同时间段内热度较高的关键词来进行趋向的分析。(再使用机器学习的算法对不同时间段内热度较高的关键词数据的发展情况和数据结果趋向分析结果进行联合分析,给出各个时间段的联合分析结果(和建议))。
- 结果呈现:设计软件或网站UI交互界面并实现后台调度,根据用户的输入,我们的预测模型给出结果,通过后台调度将我们的模型和用户的呈现进行交互,并将结果合理的呈现出来
- 系统管理:对网站以及训练模型的状态比如任务的调度、系统的状态、网址/关键字的维护等进行通过管理员界面等方式进行观测
- ELK构建搜索模块:
a. Redis高