文本信息挖掘之词云、LDA主题模型——排名在前 1% 的高中生是靠天赋还是靠努力？（知乎）

qq_42839893

于 2020-07-30 21:18:53 发布

阅读量1.2k

点赞数 2

分类专栏：知乎自然语言处理文本挖掘模型文章标签：自然语言处理数据分析 python 数据挖掘知乎网

本文链接：https://blog.csdn.net/qq_42839893/article/details/107700630

版权

利用LDA主题模型，对1000多条知乎数据进行分析，探究排名在前1%高中生的成功因素。数据显示，方法、高中资源、老师和时间管理被频繁提及，暗示方法的重要性、优质教育资源和高效学习习惯可能是关键因素。

摘要由CSDN通过智能技术生成

最近各地的高考成绩刚出，看到各地状元那神仙般的成绩，不由得让我想起知乎上一个一直热度不减的问题——“排名在前 1% 的高中生是靠天赋还是靠努力？”

借着上次爬知乎的代码（链接: link.），简单爬了1000多条数据。
数据的链接在这里：
链接: https://pan.baidu.com/s/1okK4PuY67_T_8OuAmry_Vw 密码: 9ctq
接下来，就用LDA主题模型来简单探究一下吧！

导包

import pandas as pd
import  re
import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from gensim.corpora import Dictionary
from gensim.models import LdaModel

读数据

df = pd.read_csv("排名在前 1% 的高中生是靠天赋还是靠努力？（知乎）.csv")
del df["Unnamed: 0"]
#直接drop掉具体内容为NAN的行
NaN_index = list(df['具体内容'][pd.isnull(df['具体内容']) == True].index)
df.drop(index=NaN_index, inplace=True)
df = df.reset_index(drop = True)

数据预处理

data_ao = df['具体内容'].apply(lambda x: re.sub('[^\u4e00-\u9fa5]', '', x))
#因为考虑到是为了对主题进行筛选，故此处先就只保留汉字
data_ao.duplicated().sum()
#

最低0.47元/天解锁文章

qq_42839893

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录