机器学习笔记--降维 PCA--基于鸢尾花数据集

1.数据集

使用skleaen.datasets自带的鸢尾花数据集进行PCA降维

首先,导入IRIS鸢尾花数据集:

from sklearn.datasets import load_iris

其次,对鸢尾花数据集进行探索:

iris = load_iris()
X = iris.data
y = iris.target

iris.data是一个四维的数据集,iris.target将每一条鸢尾花打上标签

 

2.PCA算法分析

1.输入:

数据集D={X1,X2......Xm}

低维空间维数d

2.过程:

求取数据集的协方差矩阵XX

对协方差矩阵作特征值分解

取最大的d个特征值所对应的特征向量w1,w2……wd

3.输出:

投影矩阵W=(w1',w2'……wd')

 

补充知识

矩阵协方差:

https://www.cnblogs.com/shenxiaolin/p/8666008.html

特征值分解:

https://zhidao.baidu.com/question/1766625103095080700.html

https://jingyan.baidu.com/article/ce09321b9177222bff858f30.html

投影矩阵:

https://blog.csdn.net/u012421852/article/details/80458340

3.实验过程

1、使用算法:PCA降维算法
2、实现过程:
1、建立工程,导入sklearn相关包
import numpy as np
from sklearn.decomposition import PCA
2、加载数据,创建PCA算法实例
3、将降维结果进行可视化
将target中相同的鸢尾花样本的降维结果呈现在二维散点图中

调用PCA方法所需参数:

pca = PCA(n_components=None, copy=True, whiten=False)

n_components:  

意义:PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n

类型:int 或者 string,缺省时默认为None,所有成分被保留。

          赋值为int,比如n_components=1,将把原始数据降到一个维度。

          赋值为string,比如n_components='mle',将自动选取特征个数n,使得满足所要求的方差百分比。

copy:

类型:bool,True或者False,缺省时默认为True。

意义:表示是否在运行算法时,将原始训练数据复制一份。

        若为True,则运行PCA算法后,原始训练数据的值不会有任何改变,因为是在原始数据的副本上进行运算;

        若为False,则运行PCA算法后,原始训练数据的值会改,因为是在原始数据上进行降维计算。

whiten:

类型:bool,缺省时默认为False

意义:白化,使得每个特征具有相同的方差。关于“白化”,可参考:Ufldl教程

其他属性:
参考:https://www.cnblogs.com/eczhou/p/5433856.html

4.实现代码

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

pca = PCA(n_components=2)

reduced_X = pca.fit_transform(X)

red_x,red_y = [],[]
blue_x,blue_y = [],[]
green_x,green_y = [],[]

for i in range(len(reduced_X)):
    if y[i]==0:
        red_x.append(reduced_X[i][0])
        red_y.append(reduced_X[i][1])
    if y[i]==1:
        blue_x.append(reduced_X[i][0])
        blue_y.append(reduced_X[i][1])
    if y[i]==2:
        green_x.append(reduced_X[i][0])
        green_y.append(reduced_X[i][1])

plt.scatter(red_x,red_y,c='r',marker='x')
plt.scatter(green_x,green_y,c='g',marker='D')
plt.scatter(blue_x,blue_y,c='b',marker='.')

 

  • 0
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
众所周知,人工智能是当前最热门的话题之一, 计算机技术与互联网技术的快速发展更是将对人工智能的研究推向一个新的高潮。 人工智能是研究模拟和扩展人类智能的理论与方法及其应用的一门新兴技术科学。 作为人工智能核心研究领域之一的机器学习, 其研究动机是为了使计算机系统具有人的学习能力以实现人工智能。 那么, 什么是机器学习呢? 机器学习 (Machine Learning) 是对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数,并最终对数据进行预测和分析的一门学科。 机器学习的用途 机器学习是一种通用的数据处理技术,其包含了大量的学习算法。不同的学习算法在不同的行业及应用中能够表现出不同的性能和优势。目前,机器学习已成功地应用于下列领域: 互联网领域----语音识别、搜索引擎、语言翻译、垃圾邮件过滤、自然语言处理等 生物领域----基因序列分析、DNA 序列预测、蛋白质结构预测等 自动化领域----人脸识别、无人驾驶技术、图像处理、信号处理等 金融领域----证券市场分析、信用卡欺诈检测等 医学领域----疾病鉴别/诊断、流行病爆发预测等 刑侦领域----潜在犯罪识别与预测、模拟人工智能侦探等 新闻领域----新闻推荐系统等 游戏领域----游戏战略规划等 从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值