第七周作业报告

最新推荐文章于 2024-04-28 00:01:57 发布

shawn_zhu1

最新推荐文章于 2024-04-28 00:01:57 发布

阅读量320

点赞数

分类专栏：数据挖掘作业文章标签：机器学习算法

数据挖掘作业专栏收录该内容

3 篇文章 0 订阅

订阅专栏

带权重KNN

KNN算法

KNN（K Nearest Neighbors,K近邻）算法是机器学习所有算法中理论最简单，最好理解的。KNN是一种基于实例的学习，通过计算新数据与训练数据特征值之间的距离，然后选取K（K>=1）个距离最近的邻居进行分类判断（投票法）或者回归。

举例：对文本分类

根据特征项集合重新描述训练文本向量
在新文本到达之后，根据特征词分词新文本，确定新文本的向量表示
在训练文本中选择出与新文本最相似的k个文本，公式表达为： $S i m (d i, d j) = \sum M k = 1 W i k * W j k ( \sum M k = 1 W 2 i k ) ( \sum M k = 1 W 2 j k ) - - - - - - - - - - - - - - - - - - \sqrt$ $Sim(d_i,d_j) = \frac{\sum_{k=1}^M W_{ik}*W_{jk}}{\sqrt {(\sum_{k=1}^M W_{ik}^2)(\sum_{k=1}^M W_{jk}^2)} }$ 公式中k的确定没有很好的办法，一般采用定一个初始值，慢慢调试
在新的文本的k个邻居中一次计算每个类的权重，计算公式为： $p (x ¯, C j) = \sum d ¯ \in K N N S i m (x ¯, d ¯ i) y (d ¯ i, C j)$ $p(\overline x,C_j) = \sum_{\overline d \in KNN} Sim(\overline x,\overline d_i)y(\overline d_i,C_j)$ 其中x为新文本的特征向量，sim（x，di）为相识度计算公式，与上一步的计算公式相同，而y为类别属性函数，即如果di是属于类cj那么为1，否者为0
比较类的权重，将文本分类到权重最大的那个。

参考KNN台湾wiki

KNN的不足

该算法在分类是当样本不平衡时，例如一个雷的样本容量很大，而其他的样本容量很小时，可能导致输入一个新的样本时，该样本的k个邻居中大多数为大容量的那个类，因此误分类的可能性比较大。
另外一个不足之处在于计算量太大。因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能计算求得k个近邻点

带权重KNN

参考：1.基于类别平均距离的加权 KNN 分类算法
2.改进型加权 KNN 算法的不平衡数据集分类

设 $L= \{(y_i,x_i)| x_i \in R^d,i=1,2,3,.....n \}$ 是一个已标记类别的训练集， $x_i$ 是训练样本， $y_i$ 是它的类别标记， $y_i \in \{ \omega_1,\omega_2,......\omega_r\}$ 。 $x_t$ 为测试 $y_t$ 样本，它的类别待测。加权KNN的基本步骤如下：
1）根据明考斯基（Minkowski）距离 $d(x_t,x_i) = (\sum_{i=1}^d|x_{ti}-x_{ij}|^q)^ \frac1q$ （或其它特征加权相似度），从训练集 $L$ 中，找出 $x_t$ 的k+1 个近邻样本。用 $x_{t(1)}...x_{t(k+1)}$ 表示这个近邻样本， $y_{t(1)}...y_{t(k+1)}$ 分别是它们的类别标记。
2）用第 k+1个近邻样本到 $x_t$ 的距离 $d(x_t,x_{t(k+1)})$ ，标准化前k 个近邻样本到 $x_t$ 的距离：

D (x t, x t (l)) = d ( x t , x t ( l ) ) d ( x t , x t ( k + 1 ) ) (L \in {1, 2, 3, 4, . . . . . . k})

$D(x_t,x_{t(l)}) =\frac {d(x_t,x_{t(l)})}{d(x_t,x_{t(k+1)})} (L \in \{ 1,2,3,4,......k\})$
3）用加权核函数

P() $P()$ ，将标准距离

D(xt,xt(l))) $D(x_t,x_{t(l))})$ 转化为

xt $x_t$ 与

xt(l)) $x_{t(l))}$ 同类的概率。若

P() $P()$ 采用高斯核函数，则有

P (x t (l)) | x t) = 1 2 \sqrt π e x p (- D ( x t , x t ( l ) ) 2)

$P(x_{t(l))}|x_t) = \frac 1{\sqrt 2 \pi}exp(- \frac {D(x_t,x_{t(l)})}{2} )$
4）根据

xt $x_t$ 的这k 个近邻样本，求出

xt $x_t$ 为

ωs(s=1,2,3...r) $\omega_s(s=1,2,3...r)$ 类的后验概率

P (ω s | X t) = 1 α \sum P (x t (l) | X t) I ()

$P(\omega_s | X_t)= \frac 1 \alpha \sum P(x_{t(l)}|X_t)I()$

I (A) = {10 若 A 为 真 若 A 为 假

$I(A)= \begin{cases} 1 & \text {若A为真} \\ 0 & \text{若A为假} \end{cases}$

式中， $\alpha = \sum P(x_{t(l)}|X_t)$ 为归一化因子。最大 $P(\omega_s | X_t)$ 所对应的类别被判定为 $x_t$ 的类别，即

y t = a r g m a x ω s P (ω s | X t)

$y_t = argmax_{\omega s}P(\omega_s | X_t)$

shawn_zhu1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第七周作业报告

带权重KNNKNN算法 KNN（K Nearest Neighbors,K近邻）算法是机器学习所有算法中理论最简单，最好理解的。KNN是一种基于实例的学习，通过计算新数据与训练数据特征值之间的距离，然后选取K（K>=1）个距离最近的邻居进行分类判断（投票法）或者回归。举例：对文本分类根据特征项集合重新描述训练文本向量在新文本到达之后，根据特征词分词新文本，确定新文本的向量表示在训练文本
复制链接

扫一扫