机器学习算法
文章平均质量分 71
O__o吗果芒要
这个作者很懒,什么都没留下…
展开
-
C4.5决策树中的连续值处理(取平均值进行分割)
C4.5决策树连续值处理rr={0.697:1,0.774:1,0.634:1,0.608:1,0.556:1,0.403:1,0.481:1,0.437:1}a=[0.243,0.245,0.343,0.36,0.403,0.437,0.481,0.556,0.593,0.608,0.634,0.639,0.657,0.666,0.697,0.719,0.774]# b=[0.244,...原创 2019-10-23 15:31:50 · 1130 阅读 · 0 评论 -
v_2_线性回归似然函数(逻辑回归与似然函数)
假设:这里的error也就是模型和实际数值之间的误差值对于任意一个x(其中包括x1,x2…xn),总有其对应的y值。此时,线性回归的问题就变成了求解最小误差值的问题。高斯分布函数:误差项符合高斯分布:线性回归使用似然函数解释...原创 2019-08-06 12:39:01 · 970 阅读 · 0 评论 -
v_3_线性回归L1与L2正则化
机器学习监督算法的基本思路是 让拟合的模型尽量接近真实数据 。在这个过程可能存在两个截然相反的问题:过拟合和欠拟合。欠拟合是模型预测值与真实值之间误差较大,梯度下降就是讨论解决问题(求损失函数最小)。而正则化则是探讨过拟合的问题。正则化通过降低模型的复杂性,达到避免过拟合的问题。损失函数后面会添加一个额外项,常用的额外项一般有两种:L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失...原创 2019-08-06 13:49:15 · 400 阅读 · 0 评论 -
V_决策树
决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。 决策树的优点:计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征; 缺点:容易过拟合(...原创 2019-08-06 17:53:13 · 128 阅读 · 0 评论 -
XGboost
xgboost详解xgboost_推导(图2,创建树结构)计算CART树原创 2019-08-07 18:58:07 · 124 阅读 · 0 评论 -
V_线性回归
tips:1.机器学习分为:监督学习,无监督学习,半监督学习(也可以用hinton所说的强化学习)等2.监督学习训练数据就是有标签数据,无监督学习训练数据就是无标签数据...原创 2019-08-06 12:31:04 · 346 阅读 · 0 评论 -
线性与回归知识点
1.斜率与梯度斜率定义为在曲线在一个点的切线,梯度定义为在曲线上曲线的法线方向。2.梯度下降方向?为什么梯度反方向是函数值下降最快的方向?梯度是一个方向向量,若α是函数在某点的梯度,那么函数在该点沿着α方向的变化最快;下降的方向:由于随着越接近最小值,函数切线的斜率逐渐变小。这就是下降的方向。3.梯度下降算法假设我们位于黄山的某个山腰处,山势连绵不绝,不知道怎么下山。于是决定走一步算...原创 2019-08-05 15:08:10 · 471 阅读 · 0 评论 -
二、决策树
决策树生成算法一个重要的工作就是选择当前信息增益最大的属性对决策树进行分裂,并根据该属性可能的取值建立对应的分支。信息增益与信息论中信息熵的概念相关。信息熵是表示一个事件的不确定性的大小,不确定性越大那么该事件包含的信息熵就越大,如果一个事件完全确定了,那么它所包含的信息熵就是0。信息增益就是分裂前的信息熵–分裂后的信息熵,信息增益越大就表示分裂过程中所释放的信息量就越大。1.决策树创...原创 2017-09-30 13:00:46 · 1570 阅读 · 0 评论 -
三、线性回归和逻辑回归
回归问题的条件/前提:1) 收集的数据。2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。(1)线性回归的定义(2)单变量线性回归(3)cost function:评价线性回归是否拟合训练集的方法(4)梯度下降:解决线性回归的方法之一(5)feature scaling:加快梯度下降执行速度的方法原创 2017-09-30 13:13:03 · 3068 阅读 · 0 评论 -
机器学习模型的保存与加载——基于pickle模块和Scikit-learn的joblib
http://www.imooc.com/article/285593原创 2019-05-20 18:39:38 · 668 阅读 · 0 评论 -
神经网络与线性回归相关概念
神经网络与线性回归相关概念https://blog.csdn.net/lyl771857509/article/details/78990215[【深度学习】神经网络入门(最通俗的理解神经网络)***]原创 2019-05-28 18:18:39 · 1255 阅读 · 0 评论 -
使用xgboost4j-spark进行模型训练
使用xgboost4j-spark进行模型训练原创 2019-05-29 10:09:29 · 1482 阅读 · 0 评论 -
逻辑回归的常见面试点总结
逻辑回归的常见面试点总结原创 2019-06-03 16:35:00 · 340 阅读 · 0 评论 -
一、k-means
解K-means的大概思路,没有深究过其中的两个重要问题:一是初始点的选择;二是K值的选择。合理的确定K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响算法原理:(1) 随机选取k个中心点;(2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;(3) 更新中心点为每类的均值;(4) j空间复杂度o(N)时间复杂度o(I*K*N)其中N为样本点个原创 2017-09-30 12:58:21 · 377 阅读 · 0 评论