本文记录了在人工智能自动组方实习中所进行的机器学习分类算法的实现和个人总结,如果有哪位小伙伴在做相关内容,可以发邮件(1318525510@qq.com)我们一起交流学习
以下为该项目的系列文章
工作记录
萤火虫算法
FCM模糊C聚类
爬虫及python代码
数据预处理
中医分类及python代码
数据预处理python代码
基于字典的最大正向匹配
基于欧式距离的方剂推荐
基于方剂相似性的方剂推荐
GitHub地址
#PCA 主成分分析
在进行分类算法时,我们将病症转化为onehot向量之后因为维度太大(2000维病症)计算效果很差,所以采用了PCA进行降低维度,但降低维度之后效果也不是很好,然后才使用了下面的数据预处理环节,建立了病症同义词词典和降低了病症集维度。关于PCA的内容详情请见我的另一篇博文PCA主成分分析
#机器学习分类算法
在分类算法模块我们将对方剂数据集中的主治字段的病症作为特征输入,将我们人工标注的该方剂的治疗证型作为标签。
我们将病症转化为onehot向量,通过分类算法得到该病症集合的所对应的证型,在通过该证型找到治疗该证型的药方,从而实现根据病症得到药方的功能。
在这里我们使用的分类方法是经典的机器学习分类方法,对于每一个机器学习算法,具体详情请看对应的每一篇具体博文:
##SKlearn调包实现分类算法
impor