机器学习之降维

最新推荐文章于 2024-05-29 11:56:36 发布

W1nd_

最新推荐文章于 2024-05-29 11:56:36 发布

阅读量74

点赞数

分类专栏： just_play 文章标签：机器学习 python

本文链接：https://blog.csdn.net/W1nd_/article/details/112334876

版权

just_play 专栏收录该内容

46 篇文章 0 订阅

订阅专栏

Day9

机器学习之降维

机器学习之降维

机器学习算法分类

监督学习
- 分类
  - k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
- 回归
  - 线性回归、岭回归
无监督学习
- 聚类
  - k-means

特征选择

特征选择是单纯从提取到的所有特征中选择部分特征作为训练集特征，特征再选择前和选择后可以改变也可以不改变值，但选择后特征维度比之前小

主要方法：过滤式(VarianceThreshold)、嵌入式(正则化、决策树)、包裹式

主成分分析PCA

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。常通过此类变换降低数据维数，一般保留90%或95%信息量即可

sklearn数据集API介绍

datasets.load_*()获取小规模数据集（含在datasets里面的）
datasets.fetch_*(data_home=None)获取大规模数据集，需要从网络下载，默认下载目录为~/scikit_learn_data
返回的是字典格式的datasets.base.Bunch，属性如下：
data，特征数据二维数组
target，标签一维数组
DESCR，数据描述
feature_names，特征名，新闻数据、手写数字、回归数据集没有
target_names，标签名

from sklearn.datasets import load_iris, fetch_20newsgroups
from sklearn.model_selection import train_test_split
li = load_iris()

# print(li.data)
# print(li.target)
# print(li.DESCR)
// 固定顺序
# x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
# print(x_train, y_train)
# print(x_test, y_test)

news = fetch_20newsgroups(subset='all') // 也可为train或test
print(news.data)
print(news.target)

W1nd_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之降维

Day9机器学习之降维机器学习算法分类特征选择主成分分析PCAsklearn数据集API介绍机器学习之降维机器学习算法分类监督学习分类k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络回归线性回归、岭回归无监督学习聚类k-means特征选择特征选择是单纯从提取到的所有特征中选择部分特征作为训练集特征，特征再选择前和选择后可以改变也可以不改变值，但选择后特征维度比之前小主要方法：过滤式(VarianceThreshold)、嵌入式(正则
复制链接

扫一扫