机器学习之降维
机器学习算法分类
- 监督学习
- 分类
- k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
- 回归
- 线性回归、岭回归
- 分类
- 无监督学习
- 聚类
- k-means
- 聚类
特征选择
特征选择是单纯从提取到的所有特征中选择部分特征作为训练集特征,特征再选择前和选择后可以改变也可以不改变值,但选择后特征维度比之前小
- 主要方法:过滤式(VarianceThreshold)、嵌入式(正则化、决策树)、包裹式
主成分分析PCA
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。常通过此类变换降低数据维数,一般保留90%或95%信息量即可
sklearn数据集API介绍
- datasets.load_*()获取小规模数据集(含在datasets里面的)
- datasets.fetch_*(data_home=None)获取大规模数据集,需要从网络下载,默认下载目录为~/scikit_learn_data
返回的是字典格式的datasets.base.Bunch,属性如下: - data,特征数据二维数组
- target,标签一维数组
- DESCR,数据描述
- feature_names,特征名,新闻数据、手写数字、回归数据集没有
- target_names,标签名
from sklearn.datasets import load_iris, fetch_20newsgroups
from sklearn.model_selection import train_test_split
li = load_iris()
# print(li.data)
# print(li.target)
# print(li.DESCR)
// 固定顺序
# x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
# print(x_train, y_train)
# print(x_test, y_test)
news = fetch_20newsgroups(subset='all') // 也可为train或test
print(news.data)
print(news.target)