- 博客(1)
- 收藏
- 关注
原创 LDA主题模型-gensim实现大规模数据的方法
LDA主题模型-gensim实现背景难点实现准备停用词绘制词云添加自定义词典jieba分词生成字典和词频训练模型之前先进行tfidf加权训练模型输出主题向量文档对应的主题向量关键词提取应用 背景 DMP需要尝试开发一些新的标签,试图从文本中挖掘出一些有用的信息,目前的文本有用户与客服的问答对话,只提取用户的语料喂给主题模型,有很多内容不是名词,提不出有用信息,组长建议我用订单里包含的商品名称,取近三个月用户购买的商品名称拼接在一起。 难点 服务器是单CPU,很难进行大规模数据处理,三个月的用户量级有2个亿。
2020-09-28 20:15:20 1433
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人