机器学习——sklearn实现半监督学习

最新推荐文章于 2024-06-20 22:14:07 发布

Tao_RY

最新推荐文章于 2024-06-20 22:14:07 发布

阅读量2.7k

点赞数 2

分类专栏：机器学习专栏文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/weixin_43008804/article/details/105485566

版权

机器学习专栏专栏收录该内容

13 篇文章 5 订阅

订阅专栏

前言：简单介绍半监督学习，无公式推导，并用sklearn实现

机器学习专栏：机器学习专栏

文章目录

一、算法思路
- 1、生成模型
- 2、物以类聚（label propagation）
二、标签传播算法的两种计算方式
- 1. RBF
- 2. KNN
三、sklearn实现LP算法

一、算法思路

1、生成模型

先计算样本特征的总体的联合分布，将所有有标注的样本计算出一个分布，然后把没有标注的样本放入这个分布中，看根据这个分布它该如何被标注，这个过程可能是迭代的。

2、物以类聚（label propagation）

标签传播算法，LP算法是一个基于图的半监督学习的算法。类似于监督学习算法中的KNN算法，假设越相近的点更有可能具有相同的类别标签，然后根据少量的有标签的样本，根据一些规则判断相邻节点之间的相似性，根据相似性对为未标签的样本进行标记。

二、标签传播算法的两种计算方式

（其实这里涉及图相关的算法知识）

1. RBF

距离离的越近越接近于1，距离离的越远越接近于0。向基函数是某种沿径向对称的标量函数，通常定义为样本到数据中心之间径向距离（通常是欧氏距离）的单调函数（由于距离是径向同性的）

2. KNN

找一个无标注的数据，然后取附近k个有标注的数据，无标注数据附近哪种标注的数据最多就取哪一个（以未标注的数据为圆心做KNN，在指定范围内找到了有标注的数据，然后对未标注的数据进行打标，然后进行打标传播，直到未标注的数据全都标注以后，算法结束）

三、sklearn实现LP算法

# -*- coding:utf-8 -*-
"""
@author: Tao_RY
@file: LP.py
@time: 2020-04-13 12:35:41
"""

import numpy as np
import pandas as pd
from sklearn.semi_supervised import LabelPropagation
from sklearn.metrics import accuracy_score, recall_score, f1_score, r2_score

df = pd.read_csv(r"C:\Users\1\WorkSpace\python\machine learning\data\iris.csv", sep=',')
labels = np.copy(df['virginica'])
train_data = df.iloc[:, [0, 1, 2, 3]]
# 标签传播算法中，未标注的数据的label必须是-1，随机选一些，标注为-1
random_unlabeled_points = np.random.randint(0, len(labels), (1, 100))
Y = labels[random_unlabeled_points][0, :]
labels[random_unlabeled_points] = -1

LP_model = LabelPropagation()
LP_model.fit(train_data, labels)
y_pred = LP_model.predict(train_data)
Y_pred = y_pred[random_unlabeled_points][0, :]   # -1的那部分重新预测

print('accuracy_score:', accuracy_score(Y, Y_pred))

Tao_RY

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
1
评论
机器学习——sklearn实现半监督学习

前言：简单介绍半监督学习，无公式推导，并用sklearn实现机器学习专栏：机器学习专栏文章目录一、算法思路1、生成模型2、物以类聚（label propagation）二、标签传播算法的两种计算方式1. RBF2. KNN三、sklearn实现LP算法一、算法思路1、生成模型先计算样本特征的总体的联合分布，将所有有标注的样本计算出一个分布，然后把没有标注的样本放入这个分布中，看根据这个...
复制链接

扫一扫