任务简述
- 分类任务
如下图,数据集的X是“英语语句”,Y是该语句对应的“情绪”,情绪的可能取值有6种,任务是给定一个语句,能判断出它属于什么情绪
- 回归任务
如下图,数据集的X是“英语语句”,Y是该语句对应的六种情绪的可能性,情绪的可能取值有5种,任务是给定一个语句,能判断出它属于各种情绪的可能性
算法原理
A. knn分类
原理:是将训练集与测试集的数据转化成特征向量,计算测试集与训练集的向量的距离,距离越近代表特征越像,然后选取距离最近的k个向量,也就是特征最像的k个向量,取它们的标签的众数作为测试数据的预测标签
1. 训练集的x转化成相应的矩阵(例如onehot或tf),同样将测试集的x也转换成矩阵
2. 对于测试集中的一个向量,计算它与训练集的矩阵中的每一个向量进行计算得出两个向量之间的距离
3. 选出K个距离最小的向量,统计这些向量对应的标签,在这些向量对应的标签中出现最多次(多数投票原则)的那个标签即为knn分类器的预测标签。
B. knn回归
原理: 是将训练集与测试集的数据转化成特征向量,计算测试集与训练集的向量的距离,距离越近代表特征越像,然后选取距离最近的k个向量,也就是特征最像的k个向量,取它们的距离的倒数作为权,乘以自身的标签概率,将k个加和最后归一化的概率作为预测概率
1. 训练集的x转化成相应的矩阵(例如onehot或tf),同样将测试集的x也转换成矩阵
2. 对于测试集中的一个向量,计算它与训练集的矩阵中的每一个向量进行计算得出两个向量之间的距离
3. 选出K个距离最小的向量,把该距离的倒数作为权重,加和权重与训练集概率的乘积,计算测试数据属于某标签的概率
4. 对得出的概率进行归一化处理,得到最终的预测概率
C. Naive Bayes分类
- 贝叶斯定理、特征条件独立假设就是朴素贝叶斯的两个理论基础。
P(B|A)=P(A|B)P(B)P(A) P ( B | A ) = P ( A | B ) P ( B ) P ( A ) - 对于我们的数据,我们有输入x,以及对应的概率标签y=(y1,y2,…,yk),这样的话要算出某个x属于yk的概率,就是,上述的贝叶斯公式就转化为
P(yk|x)=P(x|yk)