机器学习
程序员日子
这个作者很懒,什么都没留下…
展开
-
比较全面的Adaboost算法总结(一)
目录:1. Boosting算法基本原理2. Boosting算法的权重理解3. AdaBoost的算法流程4. AdaBoost算法的训练误差分析5. AdaBoost算法的解释6. AdaBoost算法的正则化7. AdaBoost算法的过拟合问题讨论8. 总结Boosting的算法流程Boosting算法是一种由原始数据集生成不同弱学习器的迭代算法,然...原创 2018-12-07 12:27:45 · 1705 阅读 · 0 评论 -
机器学习十大算法系类
https://blog.csdn.net/v_JULY_v/column/info/datamining转载 2018-11-22 21:30:00 · 257 阅读 · 0 评论 -
如何防止决策树过拟合的几种方法
一.什么是过度拟合数据? 过度拟合(overfitting)的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h'属于H,使得在训练样例上h的错误率比h'小,但在整个实例分布上h'比h的错误率小,那么就说假设h过度拟合训练数据. overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数...原创 2018-11-19 22:32:30 · 14989 阅读 · 0 评论 -
对方向导数和梯度的理解
在微积分课程中,我们知道函数在某一点的导数(微商)代表了函数在该点的变化率。微分和积分,它们的定义都是建立在极限的基础上。对于单变量函数f(x),它在x0处导数是:当x趋近于x0时,函数的改变量与自变量的改变量的比值的极限,即微商(导数)等于差商的极限 对于单变量函数,自变量只有一个,当x趋近于x0时只能在直线上变动,移动的方向只有左右两方。然而,对于多变量函数,自变量有多个,表示自...原创 2018-11-19 21:18:35 · 2294 阅读 · 0 评论 -
机器学习中正则化项L1和L2的直观理解
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。...原创 2018-11-19 20:45:02 · 247 阅读 · 0 评论 -
机器学习Knn算法的理解与预测年收入阶段的项目Python代码实现。
最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。 KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间...原创 2018-11-19 19:35:44 · 2471 阅读 · 2 评论 -
极大似然估计详解
https://blog.csdn.net/zengxiantao1994/article/details/72787849转载 2018-11-19 16:22:40 · 242 阅读 · 0 评论 -
利用朴素贝叶斯分析鸢尾花,代码有详细解释。
#导入所需要的包from sklearn.naive_bayes import GaussianNBimport numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisf...原创 2018-11-21 20:51:49 · 9953 阅读 · 1 评论 -
numpy中np.c_和np.r_的区别
作者写的很好,简单明了。例子import numpy as npa = np.array([1, 2, 3])b = np.array([4, 5, 6])c = np.c_[a,b]print(np.r_[a,b])print(c)print(np.c_[c,a])np.r_是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等,类似于pandas中的concat(...转载 2018-11-21 20:16:31 · 358 阅读 · 0 评论 -
机器学习中numpy的meshgrid的理解和作用
刚开始学习numpy的时候,见到过一次meshgrid函数,当时没有深入理解,也不知道干涉么用的,在后面的i项目中见到好几次,然后查阅了一些好的博客,然后在这里自己做了一下总结。在项目中经常遇到这种情况,那么他什么意思和想要表达什么结果呢?x = np.linspace(xmin,xmax,300)y = np.linspace(ymin,ymax,300)xx,yy = np.m...原创 2018-11-21 20:08:18 · 2024 阅读 · 0 评论 -
机器学习中:autopct = '%0.3f%%',代表的意思。
a = '%3.1f%%'% 1000 # 1000.0%a = '%0.3f%%'% 1000 #1000.000%a = '%1.1f%%'% 100 #100.0%a = '%6.1f%%'% 100 #100.0%小数点前面的数字对产生的结果没有任何影响,小数点后面的数字表示保留小数点几位。...原创 2018-11-20 20:53:13 · 20043 阅读 · 4 评论 -
机器学习中,数据预处理:fit_transform()和transform()的区别
# 从sklearn.preprocessing导入StandardScaler from sklearn.preprocessing import StandardScaler # 标准化数据,保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值而主导 ss = StandardScaler() # fit_transform()先拟合数据,再标准化...原创 2018-11-20 20:06:33 · 1077 阅读 · 0 评论 -
项目中bug总结
一、invalid literal for int() with base 10: '293.02'在进行数组使用reduce求总和的时候,不能使用int()类型,应该使用float()。二、raise ValueError("Unknown label type: %r" % y_type) Unknown label type: 'continuous'在进行模型...原创 2018-12-09 22:46:21 · 879 阅读 · 0 评论