基于财经新闻的LDA主题模型实现：Python

最新推荐文章于 2024-03-20 07:54:02 发布

VIP文章空城_招Python数据处理

最新推荐文章于 2024-03-20 07:54:02 发布

阅读量1.3k

点赞数 2

分类专栏： data mining/machine learning 文章标签： python LDA 财经新闻主题模型

本文链接：https://blog.csdn.net/huozi07/article/details/104066425

版权

LDA主题模型虽然有时候结果难以解释，但由于其无监督属性还是广泛被用来初步窥看大规模语料(如财经新闻)的主题分布。这篇博客侧重提供一个LDA主题模型python代码的技术实现，不侧重如何分析财经新闻(后面再更)。

# -*- coding: utf-8 -*-
#import pacakge
import pandas as pd
import re
import jieba
from pprint import pprint

#load data
jieba.load_userdict("financialDict.txt") #金融字典，提升新闻分词效果
df=pd.read_csv("newsContent.csv",sep="\t")
df.sample(10) #数据结构如下

#新闻文本数字统一替换为0，多余空格去除。
def cleantext(x):
    try:
      result = re.sub(r'\s+', '',x)# remove double space
      result = re.sub(r'\d+','0&

最低0.47元/天解锁文章

优惠劵

空城_招Python数据处理

关注关注

2
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
基于财经新闻的LDA主题模型实现：Python

LDA主题模型虽然有时候结果难以解释，但由于其无监督属性还是广泛被用来初步窥看大规模语料(如财经新闻)的主题分布。这篇博客侧重提供一个LDA主题模型python代码的技术实现，不侧重如何分析财经新闻(后面再更)。# -*- coding: utf-8 -*-#import pacakgeimport pandas as pdimport reimport jiebafrom ppr...
复制链接

扫一扫