一 序
真实数据非公开测试数据集,所以不能外泄。学习完线性回归模型之后,想再实际项目中应用下。
项目背景:
咨询需要分诊的类型如给医生、护士、客服等不同人处理。目前是人工处理分类。
数据格式比较简单:分类结果,咨询内容。
二 技术方案
首先,我们需要对数据进行处理,通过中文分词将原始内容转换为文本向量。随后,使用机器学习算法对数据进行训练,得到模型后使用测试数据集进行验证。
三 分词
试验过,如果使用默认的TFIDF模型,分词的数据不太好。
所以改用jieba分词
jieba分词,网上帖子很多了。
说下我遇到的坑。
data = pd.read_csv('data.csv',encoding='utf-8',dtype=str,header=None)
读取csv文件之后,尝