题目:第3题,请根据附件 2 所提供的部分食物寒热属性(分为三类:性平、性温热、性凉寒),对附 件 1 中的食物进行分类,判断这些食物是属于性平、性温热或性凉寒中哪一类,并说明你分类 的合理性;
思路:如果食品寒热属性与其成分之间都是线性关系,那么可以考虑采用多元 Logistic回归
模型来分类,后续查看其模型预测准确率,若准确率高,则进一步进行线性检验,若较低。则采用BP神经网络模型,它适用于非线性映射关系,最后通过对比两个模型训练集的准确性来衡量其优劣性能。
多元逻辑回归模型介绍:
它可以划分 3个二元 logistic regression模型
对于二元 logistic regression,如食物是否寒性模型的数学公式如下:
通过sigmoid函数将线性的值映射到0-1之间,再离散化变为0和1。通过此方法可最后得到回归系数,这里的回归系数要用发生比率来解释。
我们最后计算得出模型的准确率为 60.14%,食物 K-S曲线示意图如下,KS值低于0.4,效果一般。
代码如下:这里注意把附件二的文本放在txt文件上读取。
import pandas as pd
i