机器算法
文章平均质量分 94
LL_QQ63
数据爱好者,算法求解中。。。。。。
展开
-
K-means 使用SSE和轮廓系数
import pandas as pd import numpy as np#创造数据from sklearn.datasets import make_blobsimport matplotlib.pyplot as pltx,y=make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)fig,ax1=plt...原创 2020-02-17 17:09:11 · 1842 阅读 · 0 评论 -
特征选择
可参考文章:https://www.cnblogs.com/pinard/p/9032759.html特征选择就是从原始特征中选取一些最有效的特征来降低维度,,提高模型泛化能力减低过拟合的过程,主要目的是剔除掉无关特征和冗余特征,选出最优特征子集;常见的特征选择方法可以分为3类:过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。1.过滤式filter:通过...原创 2020-01-03 16:23:40 · 638 阅读 · 0 评论 -
StratifiedShuffleSplit 分层抽样
分层随机分割交叉验证器可以将数据分割为训练集和测试集,不过它只提供训练集/测试集数据在原始数据集中的位置索引。由该类生成的交叉验证对象融合了StratifiedKFold和ShuffleSplit两个函数的功能,该对象返回分层随机折,对像通过对每一类保留一定比例的样本生成折。注意:同随机分割一样,分层随机分割不保证所有折都是不同的,即使对于大数据集也不例外。原型为:class sklea...原创 2020-01-02 16:20:23 · 1210 阅读 · 0 评论 -
线性回归-案例1
from sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom s...原创 2019-12-31 10:00:45 · 156 阅读 · 0 评论 -
数据预处理总结 Python
1.数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。进行无量纲化处理后,表征不同属性(单位不同)的各特征之间才有可比性,如1cm与 0.1kg你怎么比?通过无量纲化可以帮我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。数据的无量纲化可以是线性的,也可以是非...原创 2019-12-24 18:26:15 · 1075 阅读 · 0 评论