一.基础模块认知

最新推荐文章于 2024-06-01 23:35:30 发布

唐-import-某人

最新推荐文章于 2024-06-01 23:35:30 发布

阅读量89

点赞数

分类专栏：机器学习文章标签： python 机器学习

本文链接：https://blog.csdn.net/tyh751734196/article/details/116998646

版权

12 篇文章 1 订阅

订阅专栏

一.数据集划分

训练集占比	验证集占比	测试集占比
50%	25%	25%

使用范围：数据总量少
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iTmDjy1N-1621335807278)(:/c9dd29f12ad742f1af4851143399ba20)]

from sklearn.datasets import 所需数据集

参数名称	说明	默认
*arrays	接受一个或多个数据集回归类型传入数据和标签聚类类型传入数据	None
test_size	接收float int None。表示测试集大小 float 限定(0,1),表示占比只能传入一个	None
train_size	接收float int None。表示训练集大小只能传入一个	None
random_state	接收int，表示随机数种子	None
shuffle	接收boolean,表示是否放回抽样	True
stratify	接收array，若传入数据，对数据集进行分层抽样。	None

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import 方法名

方法名称	解释说明
fit	分析特征和目标值，提取有价值的信息（统计量or权值系数）。
transfrom	对特征数据进行转换， 1.无信息转换：不利用任何其他信息进行转换 2.有信息转换：利用任何其他信息进行转换 ——（1）有监督学习: 利用了特征的统计信息+目标值信息的转换 ——（2）无监督学习: 只利用特征的统计信息进行的转换
fit_transforn	fit+transfrom功能的整合

函数名	接收	说明	默认
n_components	None,int,float,string	None: 保留所有特征 int: 将数据降到n维 float: 不知道 string: 自动选取特征，使其满足方差百分比	None
copy	bool	是否复制原数据进行操作 True: 是,原数据不改变 False: 否,原数据改变	True
whiten	bool	是否对降维数据进行归一化（让方差为1） True: 进行归一化 False: 不进行归一化	False
svd_solver	string{ ‘auto’, ‘full’, ‘arpack’, ‘randomized’}	表示所有的SVD算法 auto: 在下面三个算法中进行权衡，选取合适的算法 full: 使用SciPy库实现SVD算法 arparck: 适用范围（量大，维度多），使用SciPy库实现SVD算法 randomized: 适用范围（量大，维度多），使用sklearn库实现SVD算法	auto

from sklearn.decomposition import PCA

关注