根据学生网课 课程评论和活跃度
参考SMPCUP2017用户画像技术评测比赛:
对文本进行提取,利用结巴分词进行分词,然后进行word2vec训练(维度设置为100),得到每个词的词向量.
对于每一个用户,通过其发表的内容,得到用户所使用的词汇,然后求得用户的平均词向量.(词向量和除以词的数量)
通过训练集,分别对用户地区,年龄,性别进行建模,程序采用svm模型.
TF-IDF 语料
主题模型:
PLSA&LDA
PLSA固定
LDA不固定
根据学生网课 课程评论和活跃度
参考SMPCUP2017用户画像技术评测比赛:
对文本进行提取,利用结巴分词进行分词,然后进行word2vec训练(维度设置为100),得到每个词的词向量.
对于每一个用户,通过其发表的内容,得到用户所使用的词汇,然后求得用户的平均词向量.(词向量和除以词的数量)
通过训练集,分别对用户地区,年龄,性别进行建模,程序采用svm模型.
TF-IDF 语料
主题模型:
PLSA&LDA
PLSA固定
LDA不固定