LDA主题模型虽然有时候结果难以解释,但由于其无监督属性还是广泛被用来初步窥看大规模语料(如财经新闻)的主题分布。这篇博客侧重提供一个LDA主题模型python代码的技术实现,不侧重如何分析财经新闻(后面再更)。
# -*- coding: utf-8 -*-
#import pacakge
import pandas as pd
import re
import jieba
from pprint import pprint
#load data
jieba.load_userdict("financialDict.txt") #金融字典,提升新闻分词效果
df=pd.read_csv("newsContent.csv",sep="\t")
df.sample(10) #数据结构如下
#新闻文本数字统一替换为0,多余空格去除。
def cleantext(x):
try:
result = re.sub(r'\s+', '',x)# remove double space
result = re.sub(r'\d+','0&