机器学习
阳光zfc
从哪儿跌倒,从哪儿爬起来。
展开
-
岭回归
【转】回归(三):岭回归概念在回归(一)中提到用最小二乘法求解回归系数的过程中需要考虑特征矩阵是否可逆的问题,事实上当特征数量比样本数量多的时候(样本数米大于特征数N,X不是满秩矩阵)就会遇到这个问题,这个时候标准线性回归显然就无从下手了引入岭回归就是为了解决这个问题,它是最先用来处理特征数多余样本数的算法。该算法的基本思想是在X Ť X加上上一个λ 我使得矩阵非奇异,从而能够对 X Ť X + ...转载 2018-04-08 15:38:27 · 2786 阅读 · 0 评论 -
transform()和fit_transform()
fit_transform()的作用就是先拟合数据,然后转化它将其转化为标准形式transform()的作用是通过找中心和缩放等实现标准化转载 2018-05-19 19:24:33 · 977 阅读 · 0 评论 -
关于one-hot编码python
转载https://yq.aliyun.com/articles/126741转载 2018-05-08 16:05:34 · 433 阅读 · 0 评论 -
聚类评估算法-轮廓系数
轮廓系数(Silhouette Coefficient),是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。 方法: 1,计算样本i到同簇其他样本的平均距离ai。ai 越小,说明样本...转载 2018-05-15 21:23:14 · 2435 阅读 · 0 评论 -
梯度下降算法
梯度下降法用来求函数的极小值,且是一种迭代算法,由于计算效率高,在机器学习中常常使用。梯度下降法经常求凸函数(convex function)的极小值,因为凸函数只有一个极小值,使用梯度下降法求得的极小值就是最小值。与其对应的有梯度上升法(Gradient ascent),用来求函数的极大值,两种方法原理一样,只是计算的过程中正负号不同而已。梯度下降背后的思想是:开始时我们随机选择一个参数的组合(...转载 2018-06-05 11:53:26 · 240 阅读 · 0 评论 -
scikit-learn简介
scikit-learn是一个开源的Python语言机器学习工具包,它涵盖了几乎所有主流机器学习算法的实现,并且提供一致的调用接口。scikit-learn的一般性原理和通用规则1评估模型对象scikit-learn里的所有算法都以一个评估模型对象来对外提供接口。举例:svm.SVC()就是一个支持向量机评估模型对象。创建评估模型对象时,可以指定不同的参数,这个称为评估对象参数。2模型接口scik...原创 2018-06-06 16:34:41 · 842 阅读 · 0 评论 -
Python机器学习库sklearn几种回归算法建模及分析(实验)
转载https://blog.csdn.net/cymy001/article/details/78556968转载 2018-06-07 08:57:53 · 1465 阅读 · 0 评论 -
sklearn中的降维PCA与TSNE
同为降维工具,二者的主要区别在于,所在的包不同(也即机制和原理不同) from sklearn.decomposition import PCAfrom sklearn.manifold import TSNE因为原理不同,导致,tsne 保留下的属性信息,更具代表性,也即最能体现样本间的差异;TSNE 运行极慢,PCA 则相对较快;因此更为一般的处理,尤其在展示(可视化)高维数据时,常常先用 P...转载 2018-06-22 10:24:25 · 4628 阅读 · 0 评论 -
sklearn中的回归器性能评估方法
【转】sklearn中的回归器性能评估方法explained_variance_score()mean_absolute_error()mean_squared_error()r2_score() 以上四个函数的相同点:这些函数都有一个参数“multioutput”,用来指定在多目标回归问题中,若干单个目标变量的损失或得分以什么样的方式被平均起来它的默认值是“uniform_average”,他就...转载 2018-06-09 23:04:21 · 1296 阅读 · 0 评论 -
PCA实例
下面举一个简单的例子,说明PCA的过程。 假设我们的数据集有10个二维数据(2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9),需要用PCA降到1维特征。 首先我们对样本中心化,这里样本的均值为(1.81, 1.91),...转载 2018-06-19 13:11:41 · 1219 阅读 · 0 评论 -
KL散度 JS散度
转发:https://www.jianshu.com/p/43318a3dc715?from=timeline&isappinstalled=0https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence转载 2018-10-14 19:41:37 · 645 阅读 · 0 评论 -
matlab文件的标准化(min-max标准化)
x=importdata('F:/4yuefengfengsu.mat')y=(x-min(x))/(max(x)-min(x))dlmwrite('F:/4yuefengfengsu123.mat',y)原创 2018-05-18 21:32:00 · 6594 阅读 · 0 评论 -
机器学习实践中的7种常见错误
【转】机器学习实践中的7种常见错误http://ml.posthaven.com/machine-learning-done-wrong</p>http://blog.jobbole.com/70684/</p> Statistical modeling is a lot like engineering. In engineering, there are vari...转载 2018-05-11 20:48:36 · 442 阅读 · 0 评论 -
使用sklearn PCA对特征数据降维
出自http://www.aboutyun.com/thread-21655-1-1.html(写的详细)转载 2018-05-11 20:12:43 · 1432 阅读 · 0 评论 -
用scikit学习和pandas学习线性回归
【转】用scikit学习和pandas学习线性回归 对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit学习来运行线性回归,评估模型不会有什么问题了。1.获取数据,定义问题 没有数据,当然没法研究机器学习啦。:)这里我们用UCI大学公开的机器学习数据来跑线性回归。 数据的介绍在这里:http : //archive.ics.uci.edu...转载 2018-04-09 10:27:17 · 304 阅读 · 0 评论 -
线性回归下的模型评估
原创 2018-04-09 10:53:11 · 1062 阅读 · 0 评论 -
机器学习回归
转载https://www.cnblogs.com/jordanxd/p/8545515.html转载 2018-04-02 15:33:04 · 137 阅读 · 0 评论 -
机器学习路线
作者:寒小阳 && 龙心尘 时间:2016年2月。出处:http://blog.csdn.net/han_xiaoyang/article/details/50759472 </A> http://blog.csdn.net/longxinchen_ml/article/details/50749614 </A> 声明:版权所有,转载请联系作者并注明出处引言...转载 2018-03-28 09:36:28 · 532 阅读 · 0 评论 -
Python,IPython,Jupyter Notebook快速安装教程
Python,IPython,Jupyter Notebook快速安装教程下一篇:IPython,Notebook,qtconsole使用教程下一篇的Python数据科学安装Numby,熊猫,SciPy的,matpotlib等(IPython的安装大熊猫)最近深入的Python的数据分析方面,为了进一步优化工具决定自己动手安装,可是看到安装文档基本千篇一律,跟不上版本变更只好看官方文档,选择了快速...转载 2018-03-29 14:41:19 · 228 阅读 · 0 评论 -
python--sklearn,聚类结果可视化工具TSNE
【转】python--sklearn,聚类结果可视化工具TSNE TSNE提供了一种有效的降维方式,让我们对高于2维数据的聚类结果以二维的方式展示出来: 1 #!/usr/bin/env python 2 #-- coding:utf-8 -- 3 4 #接kmeans.py 5 #k_means.py中得到三维规范化数据data_zs; 6 #r增加了最后一列,列索引为“聚类类别”...转载 2018-04-24 16:33:21 · 9638 阅读 · 2 评论 -
机器学习中的四种评价函数
机器学习中的四种评价函数评价函数(EvaluationFunction)在毕业设计过程中常使用的五种基于预测误差的评价指标:1. 均方根误差(RMSE)2. R-平方(R2)3. 平均绝对百分误差(MAPE)4. 平均绝对误差(MAE)5. 希尔不等系数(TIC)(暂不使用)均方根误差(RMSE)RMSE是预测值与真实值的误差平方根的均值。均方根误差RMSE(root-mean-square er...转载 2018-05-03 19:49:35 · 16860 阅读 · 0 评论 -
机器学习之数据预处理-构造好的训练数据集
一 缺失数据的处理 df.isnull().sum() 得到每列缺失值数量 (1)将存在缺失值的特征或样本删除 df.dropna()删除数据集中包含缺失值的行 df.dropna(axis=1)删除数据集中至少包含一个NAN值得列 (2)缺失数据填充 常用的插值技术之一就是均值插补,即使用相应的特征均值来替换缺...原创 2018-05-17 10:34:04 · 1521 阅读 · 0 评论 -
数据预处理程序参考
import pandas as pd# from sklearn.model_selection import train_test_splitdf=pd.read_csv("F:/Advertising.csv")#缺失数据填充from sklearn.preprocessing import Imputerimr=Imputer(missing_values='NAN',strategy='...原创 2018-05-17 15:23:33 · 704 阅读 · 0 评论 -
时间序列预测
ARIMA模型的全称叫做自回归移动平均模型,全称是(ARIMA, Autoregressive Integrated Moving Average Model)。也记作ARIMA(p,d,q),是统计模型(statistic model)中最常见的一种用来进行时间序列 预测的模型。1. ARIMA的优缺点优点: 模型十分简单,只需要内生变量而不需要借助其他外生变量。缺点:1.要求时序...转载 2018-11-18 11:49:16 · 330 阅读 · 0 评论