一、任务需求
给定一组微博用户的微博帐号、性别和微博内容文本。以微博内容文本为特征,性别为标签,用数据的70%训练SVM分类器;再对剩下的30%微博文本进行性别预测,观察结果。
二、所用工具
python(Anaconda):编程环境
jieba:中文分词工具
gensim:训练词向量工具
sklearn:训练分类器工具
三、实现过程
1.数据准备
给定一组微博用户的微博帐号、性别和微博内容文本。以微博内容文本为特征,性别为标签,用数据的70%训练SVM分类器;再对剩下的30%微博文本进行性别预测,观察结果。
二、所用工具
python(Anaconda):编程环境
jieba:中文分词工具
gensim:训练词向量工具
sklearn:训练分类器工具
三、实现过程
1.数据准备
Data_weibo_male_female\GenderUserID中包含male.txt和female.txt,分别列出了各自属性的微博帐号。