前段时间做了新浪微博的主题划分,结果还可以,上传上来算是对之前的一个交代吧
数据集:
利用Gooseeker在新浪微博上爬取了2161个用户,包括这些用户间21368条相互间的关注关系,爬取了2161个新浪微博发布的微博数,粉丝数和关注数,单个用户最近发布的300条微博,包括微博文本内容、微博的评论数和转发数。
数据预处理:
1)
将单个用户发布的300条微博整合成一个文档
2)
对文档进行噪音处理,去除‘@某用户:’、‘我在这里:北京市’相类似的无用短语,再进一步去除特殊的标点符号;
3)
利用结巴分词对文档进行分词工作;
4)
利用完善的停用词表对文档去除停用词;
5)
得到的结果准备进行LDA主题划分
参数设置:
用户发布的微博内容文档进行LDA主题划分时,根据Griffiths
& Steyvers(2004)对主题模型参数设置的研究,将实验参数设置为经验值,主题设为50个,吉布斯采样迭代次数设置为100次。
划分结果:
在每个主题内部根据词语概率高低进行主题词排序,选择具有最高概率的10个词语评估话题挖掘效果。下表所示是取了LDA模型结果中前10个话题及其关键词。
话题 话题关键词
Topic1 推荐 知乎 纪录片 年 下载 阅读 文章 作者 英语 豆瓣
Topic2 手机 三星 苹果 小米 发布 元 屏幕 支持 曝光 产品
Topic3 点 股 市场 股市 股票 经