文本信息挖掘之词云、LDA主题模型——排名在前 1% 的高中生是靠天赋还是靠努力?(知乎)

利用LDA主题模型,对1000多条知乎数据进行分析,探究排名在前1%高中生的成功因素。数据显示,方法、高中资源、老师和时间管理被频繁提及,暗示方法的重要性、优质教育资源和高效学习习惯可能是关键因素。
摘要由CSDN通过智能技术生成

最近各地的高考成绩刚出,看到各地状元那神仙般的成绩,不由得让我想起知乎上一个一直热度不减的问题——“排名在前 1% 的高中生是靠天赋还是靠努力?”

借着上次爬知乎的代码(链接: link.),简单爬了1000多条数据。
数据的链接在这里:
链接: https://pan.baidu.com/s/1okK4PuY67_T_8OuAmry_Vw 密码: 9ctq
接下来,就用LDA主题模型来简单探究一下吧!

导包

import pandas as pd
import  re
import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from gensim.corpora import Dictionary
from gensim.models import LdaModel

读数据

df = pd.read_csv("排名在前 1% 的高中生是靠天赋还是靠努力?(知乎).csv")
del df["Unnamed: 0"]
#直接drop掉具体内容为NAN的行
NaN_index = list(df['具体内容'][pd.isnull(df['具体内容']) == True].index)
df.drop(index=NaN_index, inplace=True)
df = df.reset_index(drop = True)

数据预处理

data_ao = df['具体内容'].apply(lambda x: re.sub('[^\u4e00-\u9fa5]', '', x))
#因为考虑到是为了对主题进行筛选,故此处先就只保留汉字
data_ao.duplicated().sum()
#
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值