2020-09-09机器学习算法基础第二天

最新推荐文章于 2024-10-12 21:53:35 发布

技术总监刘先生

最新推荐文章于 2024-10-12 21:53:35 发布

阅读量215

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/karl_Marco/article/details/108501146

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习算法基础

文章目录

一、数据降维
- 1.特征选择
- 2.主成分分析（PCA）
二、机器学习算法分类以及开发流程
- 1.机器学习算法分类
- 2.机器学习开发流程
- 3.sklearn数据集划分
- 4.转换器和估计器
总结

一、数据降维

1.特征选择

特征选择的原因

1.部分特征冗余高，容易消耗计算性能

2.部分特征对预测结果有影响

特征选择是什么

从方差的角度考虑过滤

方差越小，越靠近零，说明特征值都差不多，对目标值影响不大，就去除掉

2.主成分分析（PCA）

主成分分析，在减少特征值的同时，损失少量的信息

找到最好的直线，保证信息量不会减少太多

pca语法

n_compoents参数

一般就是保留特征的百分比，因为不知道有多少特征需要减少

pca降维的案例

import pandas as pd
from sklearn.decomposition import PCA
# 读取四张表的数据----数据与.py文件在同一目录下
prior = pd.read_csv("./pcadata/order_products__prior.csv")
products = pd.read_csv("./pcadata/products.csv")
orders = pd.read_csv("./pcadata/orders.csv")
aisles = pd.read_csv("./pcadata/aisles.csv")
# 合并为一张表
mt = pd.merge(prior,products,on=['product_id','product_id'])
mt = pd.merge(mt,orders,on=['order_id','order_id'])
mt = pd.merge(mt,aisles,on=['aisle_id','aisle_id'])
# 交叉表（特殊的分组工具）
cross = pd.crosstab(mt['user_id'],mt['aisle'])
cross.head(10)
# 主成分分析
pca = PCA(n_components=0.9)
data = pca.fit_transform(cross)
print(data)
data.shape