机器学习之降维

机器学习之降维

机器学习算法分类

  • 监督学习
    • 分类
      • k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
    • 回归
      • 线性回归、岭回归
  • 无监督学习
    • 聚类
      • k-means

特征选择

特征选择是单纯从提取到的所有特征中选择部分特征作为训练集特征,特征再选择前和选择后可以改变也可以不改变值,但选择后特征维度比之前小

  • 主要方法:过滤式(VarianceThreshold)、嵌入式(正则化、决策树)、包裹式

主成分分析PCA

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。常通过此类变换降低数据维数,一般保留90%或95%信息量即可

sklearn数据集API介绍

  • datasets.load_*()获取小规模数据集(含在datasets里面的)
  • datasets.fetch_*(data_home=None)获取大规模数据集,需要从网络下载,默认下载目录为~/scikit_learn_data
    返回的是字典格式的datasets.base.Bunch,属性如下:
  • data,特征数据二维数组
  • target,标签一维数组
  • DESCR,数据描述
  • feature_names,特征名,新闻数据、手写数字、回归数据集没有
  • target_names,标签名
from sklearn.datasets import load_iris, fetch_20newsgroups
from sklearn.model_selection import train_test_split
li = load_iris()

# print(li.data)
# print(li.target)
# print(li.DESCR)
// 固定顺序
# x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
# print(x_train, y_train)
# print(x_test, y_test)

news = fetch_20newsgroups(subset='all') // 也可为train或test
print(news.data)
print(news.target)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值