1.数据清洗(去掉无意义的标签、url、符号等) 2.分词、大小写转换、添加句首句尾、词性标注 一般把大写转换成小写,除了特殊词。 3.统计词频、抽取文本特征、特征选择、计算特征权重,归一化 4.划分训练集、测试集,7:3