机器学习 scikit-learn(2)

原创 2016年08月31日 15:53:55

标签传播(label Propagation)

强调一种主动学习工具去学习手写数字。开始训练一个只有10个标签的标签传播模型,然后我们选择5个最不确定的去标记。之后我们训练15个标签点。重复4次,最后得到一个拥有30个标签的例子。例子来自于scikit-learn官网

print(__doc__)

# Authors: Clay Woolam <clay@woolam.org>
# Licence: BSD

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

from sklearn import datasets
from sklearn.semi_supervised import label_propagation
from sklearn.metrics import classification_report, confusion_matrix

digits = datasets.load_digits() #导入数据集
rng = np.random.RandomState(0)  
indices = np.arange(len(digits.data)) #indices是索引号为0-1788的数组
rng.shuffle(indices)  #随机

X = digits.data[indices[:330]]    #取索引号为前330的数据
y = digits.target[indices[:330]]  #取索引号为前330的目标数据
images = digits.images[indices[:330]]

n_total_samples = len(y)          #共330个
n_labeled_points = 10

unlabeled_indices = np.arange(n_total_samples)[n_labeled_points:]	#没有标记后320个索引
f = plt.figure()

for i in range(5):	#循环5次
    y_train = np.copy(y)		#索引号为前330个的目标数据
    y_train[unlabeled_indices] = -1	#后面320个都是-1

    lp_model = label_propagation.LabelSpreading(gamma=0.25, max_iter=5)	#自定义标签传播模型
    lp_model.fit(X, y_train)		# 应用,进行训练

    predicted_labels = lp_model.transduction_[unlabeled_indices]	#进行传播,之后得到预测的值
    true_labels = y[unlabeled_indices]	#真实值

    cm = confusion_matrix(true_labels, predicted_labels,
                          labels=lp_model.classes_)

    print('Iteration %i %s' % (i, 70 * '_'))
    print("Label Spreading model: %d labeled & %d unlabeled (%d total)"
          % (n_labeled_points, n_total_samples - n_labeled_points, n_total_samples))

    print(classification_report(true_labels, predicted_labels))

    print("Confusion matrix")
    print(cm)

    # compute the entropies of transduced label distributions
    pred_entropies = stats.distributions.entropy(
        lp_model.label_distributions_.T)

    # select five digit examples that the classifier is most uncertain about
    uncertainty_index = uncertainty_index = np.argsort(pred_entropies)[-5:]

    # keep track of indices that we get labels for
    delete_indices = np.array([])

    f.text(.05, (1 - (i + 1) * .183),
           "model %d\n\nfit with\n%d labels" % ((i + 1), i * 5 + 10), size=10)
    for index, image_index in enumerate(uncertainty_index):
        image = images[image_index]

        sub = f.add_subplot(5, 5, index + 1 + (5 * i))
        sub.imshow(image, cmap=plt.cm.gray_r)
        sub.set_title('predict: %i\ntrue: %i' % (
            lp_model.transduction_[image_index], y[image_index]), size=10)
        sub.axis('off')

        # labeling 5 points, remote from labeled set
        delete_index, = np.where(unlabeled_indices == image_index)
        delete_indices = np.concatenate((delete_indices, delete_index))

    unlabeled_indices = np.delete(unlabeled_indices, delete_indices)
    n_labeled_points += 5

f.suptitle("Active learning with Label Propagation.\nRows show 5 most "
           "uncertain labels to learn with the next model.")
plt.subplots_adjust(0.12, 0.03, 0.9, 0.8, 0.2, 0.45)
plt.show()


版权声明:本文为博主原创文章,未经博主允许不得转载。

Python下的机器学习工具scikit-learn(学习笔记2--官方实例程序)

本文参考官方网站:http://scikit-learn.org/stable/tutorial/basic/tutorial.html scikit-learn工具包自带一些标准数据集(包括iris...

Python3.2 安装scikit-learn机器学习包

  • 2013年04月17日 16:30
  • 44.84MB
  • 下载

机器学习scikit-learn入门教程

原文链接:http://scikit-learn.github.io/dev/tutorial/basic/tutorial.html章节内容在这个章节中,我们主要介绍关于scikit-learn机器...

尝试向分析类转型1--scikit-learn(机器学习) 和 Weka(数据挖掘)

前段时间的那个微博爬虫一直爬着。。 现在库里有20w id 和 10 w 转发微博  10w 原创微博 这个项目算是失败了,因为效率太低了,微博更新那么快,爬虫速度又那么慢。。。 所以根本来不及拿...

python机器学习库scikit-learn简明教程之:Lasso回归预测

1.简介 LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选和复杂度调整。 因此,不论目标因变量是连续的,还是二元或者多元离散的, 都可以用LASSO回归建模然后预测。 这里的变量筛选是指不...
  • hanss2
  • hanss2
  • 2016年12月07日 23:31
  • 5260

《机器学习:算法原理与编程实践》的读书笔记:SMO部分最难,大部分代码基于Scikit-Learn,决策树其实用处不大

机器学习:算法原理与编程实践 目录  [隐藏]  1 机器学习的基础2 中文文本分类3 决策树的发展4 推荐系统原理5 梯度寻优6 神经网络初步7 预测的技术...
  • cteng
  • cteng
  • 2015年12月12日 17:10
  • 1616

python中机器学习包scikit-learn使用笔记与sign prediction简单小结

经Edwin Chen的推荐,认识了scikit-learn这个非常强大的python机器学习工具包。这个帖子作为笔记。(其实都没有笔记的意义,因为他家文档做的太好了,不过还是为自己记记吧,为以后节省...

Scikit-Learn:开源的机器学习Python模块

 摘要:scikit-learn是一个用于机器学习的Python模块,其具有操作简单、效率高、无访问限制、BSD开源协议等等特征,在机器学习这一块是比较受欢迎的。 scikit-lea...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习 scikit-learn(2)
举报原因:
原因补充:

(最多只允许输入30个字)