自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 问答 (1)
  • 收藏
  • 关注

原创 模型评估与选择

模型评估误差:实际输出与预测输出之间的差值经验误差:在训练集上的错误率;泛化误差:在测试集上的错误率欠拟合与过拟合欠拟合:模型学习能力低下; 解决办法:增加训练轮数或从模型本身的特征出发:如NN增加神经元个数过拟合:模型学习能力过于强大 解决办法:无法彻底避免;使经验误差最小化得意缓解训练、测试数据的划分留出法: 直接将数据集划分为两个...

2018-03-16 15:44:34 268

原创 EM算法及python实现

EM算法描述及应用场景:某个数据集中有一些数据是缺失的,那么这些数据填充为多少比较合适。这是一个比较有研究意义的问题。 EM很适合解决这个问题: 最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中(此处理解为缺失值),参数的最大似然估计。在统计计算中,最大期望(EM)算法是在概...

2018-03-06 21:40:25 2919

原创 AdaBoost推导及实现

AdaBoost 属于集成学习算法的一种。集成学习通过构建多个学习任务。结构框架如图所示集成学习通过多个分类器进行结合,因而大多数情况下拥有较好的泛化性能,以AdaBoost为例,其集成方法各有千秋:可以是同一算法在不同设置下集成;也可以是在不同数据集上集成,一般数据进行抽样训练。 不同的学习器要有一定的准确性,又要有差异性。 如图是Ada的模型: 右边矩形代表不同权重下的数据集

2018-01-17 22:52:17 316

原创 牛顿法和拟牛顿法,大数开方

牛顿法和拟牛顿法是是求解最优化问题(函数)的常用方法,具有收敛速度快的特点。牛顿法考虑无约束最优化问题:其中xx为目标函数的极小值点 minx∈Rnf(x)\min_{\tiny x \in R^n} {f(x)} 假设f(x)f(x)具有二阶连续偏导数,若第k{\tiny k}次迭代值为xkx_{\tiny k},则可将f(x)f(x)在xkx_{\tiny k}附近二阶泰勒展开

2018-01-07 23:36:21 377

原创 让R运行在jupter上

jupter notebook的好处不用多说了哈哈哈。用jupter写R做数据分析可视化是一个不错的选择。 省得麻烦,直接安装Anaconda(py3或2都ok)自带了N多库,也好管理。 安装R: 用anaconda自带命令(linux下shell)输入:conda install -c r r-essentials更多内容见Anaconda官网: https://docs.a

2018-01-06 20:48:50 791

原创 Decision Tree

决策树是一个有监督的分类模型。以二分类为例,从复杂的离散型数据中学习一种模式。这里使用西瓜书的数据集 编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜 1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是 2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是 3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是

2018-01-03 18:51:21 162

原创 The Economist(2014.11.24) Should digital monopolies be broken up?

The Economist

2017-12-29 16:17:46 571

原创 LogisticRegression

机器学习

2017-12-29 15:20:26 297

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除