机器学习特征选择和特征降维

#降维,减少特征的数量
from sklearn.feature_selection import VarianceThreshold

# 特征的选择,1、特征减少,2、主成分分析PCA,特征上百个时候,就要考虑数据的简化
#
# # axis的重点在于方向,而不是行和列。1表示横轴,方向从左到右;0表示纵轴,方向从上到下。
#
# 特征选择,三个方法,过滤式,variance Threshold  embedded 嵌入式,正则化,决策树
# API:sklearn.feature_selection.VarianceThreshold
# VarianceThreshold 删除所有低方差特征
# Variance.fit_tansform(X,y) X为numpy array数据

# vaa=VarianceThreshold(threshold=2)
# data=vaa.fit_transform([[0, 2, 0, 3],[0, 1, 4, 3],[0, 1, 1, 3]])
# print(data)

# 主成分PCA方法,数据降维,特征过多,导致各个维度之间存在相关性
# API:sklearn.decomposition
# Y=PX,通过矩阵运算将数据降维
from sklearn.decomposition import PCA
pcc=PCA()
DATA=pcc.fit_transform([[2,8,4,5],
[6,3,0,8],
[5,4,9,1]]
)
print(DATA)
# 特征预处理
import sklearn.preprocessing

# 通过特定统计方法将数据转换成算法要求的数据
# 数值型数据:标准缩放,归一化,标准化,缺失值
# 类别型数据:one-hot编码
# 时间类型:时间的切分
#
# 归一化:通过对原始数据进行变换把数据映射到0-1之间
# 公式:X1=(x-min)/(max-min) X2=X1*(mx-mi)+mi  mx-mi为指定区间,如果为1-0区间,则mx=1,mi=0
# X2为目标值,
#
# sklearn归一化的API,sklearn.preprocessing.MinMaxScaler
# 语法:MinMaxScalar(feature_range=(0,1)....)
# MinMaxScaler.fit_transform(X)
# X:numpy array数据,返回相同形状的array

a=[[90,2,10,40],
[60,4,15,45],
[75,3,13,46]]
from sklearn.preprocessing import MinMaxScaler
def guiyi():
    minmax = MinMaxScaler()
    data=minmax.fit_transform(a)
    print(data)
    return None
guiyi()

#归一化使用场景:某一个特征对最终结果不会造成更大影响,同等重要的特征进行归一化
#异常值会导致归一化的鲁棒性较差

#标准化
# X1=(X-mean)/标准差
# 对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变
# 对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。

# sklearn归一化的API,sklearn.preprocessing.StandardScaler
# 语法:StandardScaler()
# StandardScaler.fit_transform(X)
# X:numpy array数据,返回相同形状的array

B=[[ 1., -1., 3.],
[ 2., 4., 2.],
[ 4., 6., -1.]]
from sklearn.preprocessing import StandardScaler
def biaozhun():
    biaozhun = StandardScaler()
    data=biaozhun.fit_transform(B)
    print(data)
    return None
biaozhun()

#标准化在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。
# import sklearn.model_selection
#
# 机器学习算法分类:
# 1、监督学习:有特征值,有目标值
#     分类(目标值离散型数据)    k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
#     回归(目标值连续型数据)    线性回归、岭回归
#     标注    隐马尔可夫模型     (不做要求)
# 2、无监督学习:只有特征值,没有目标值
#     聚类    k-means
#
# 机器学习开发流程
# 1、数据获取,明确做什么
# 2、数据基本处理,PD处理数据,合并报表,缺失值处理
# 3、特征工程,特征处理
# 4、找到合适算法进行分析,模型=数据+算法
#
# 数据:70%训练集,30%测试集
# 训练模型,评估模型
#
# 数据集划分
# 接口:sklearn.model_selection.train_test_split()
# sklearn.datasets 获取流行数据集
# datasets.load_*() 小规模数据集
# datasets.fetch_*(data_home=None) 获取大规模数据集
# load*fetch 返回datasets.base.buch 字典格式
# data 特征数据数组,是二维numpy.ndarray数组
# target 标签数组,是一维numpy.nadarry数组
# feature_names:特征名
# target_name 标签名
import sklearn.linear_model
from sklearn.datasets import load_iris
li=load_iris() #返回字典格式
# print(type(li))
# print(li)
# print(li.feature_names)
# print(li.target_names)
# print(li.data) #返回二维数组格式
# print(li.target) #返回一维数组
# print(li.DESCR)
#
# from sklearn.datasets import load_digits
# digg=load_digits()
# print(digg.DESCR)

# #数据集分割
# from sklearn.model_selection import train_test_split
# #注意返回值,训练集 train  测试机 test
# x_train,x_test,y_tarin,y_test=train_test_split(li.data,li.target,test_size=0.25)
# print("训练集特征值和目标值:",x_train,y_tarin)
# print("测试集特征值和目标值:",x_test,y_test)

# #用于分类的大数据集
# from sklearn.datasets import fetch_20newsgroups
# news=fetch_20newsgroups(subset='all')
# print(news.data)
# print(news.target)

#转换器
fit_trasform()
fit()输入数据,但不转换
transform()进行数据转换

#估计器,门槛在每个算法API当中的参数,需要了解每个算法
estimator是一类实现算法的API
1、用于分类的估计器:
sklearn.neighbors K-近邻算法
sklearn.naive_bayes 贝叶斯
sklearn.linear_model.LogisticRegression 逻辑回归
sklearn.tree 决策树与随机森林

2、用于回归的估计器
sklearn.linear_model.LinearRegression 线性回归
sklearn.linear_model.Ridge岭回归
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值