文章标题的嵌入可以预测受欢迎程度吗? 我们可以从中了解情绪与股票之间的关系? word2vec可以帮助我们回答这些问题。
Word嵌入是表示单词内容以及文档(单词集合)中包含的潜在信息的有效方式。 使用新闻文章标题的数据集,其中包括关于来源,情感,主题和受欢迎程度(#份额)的特征,我开始通过各自的嵌入来了解我们可以了解文章之间的关系。
该项目的目标是:
使用NLTK预处理/清理文本数据
使用word2vec创建单词和标题嵌入,然后使用t-SNE将它们显示为簇
可视化标题情绪与文章流行度之间的关系
尝试从嵌入和其他可用功能预测文章流行度
使用模型堆叠来提高流行度模型的性能(此步骤不成功,但仍然是一个有价值的实验!)
We’ll begin with imports:
import pandas as pd