对于每一篇文字,我们都有热点内容,因此我们可以考虑增加一个热榜的功能,由于我们的描述是大段的描述性文本,因此我们需要对其进行分词,统计词频:
首先我们观察发现,我们的分出的词,有很多单个字,他们出现的频率较高,并且是无用信息,经过我们的参数验证,我们将2个字以上的数据保留:
但是像年份,省略号等信息都是无用的,因此我们使用了正则表达式匹配:
过滤后统计词频:
输出统计信息
传入文件中,对前端页面进行渲染即可:
完成所有可视化部分
对于每一篇文字,我们都有热点内容,因此我们可以考虑增加一个热榜的功能,由于我们的描述是大段的描述性文本,因此我们需要对其进行分词,统计词频:
首先我们观察发现,我们的分出的词,有很多单个字,他们出现的频率较高,并且是无用信息,经过我们的参数验证,我们将2个字以上的数据保留:
但是像年份,省略号等信息都是无用的,因此我们使用了正则表达式匹配:
过滤后统计词频:
输出统计信息
传入文件中,对前端页面进行渲染即可:
完成所有可视化部分