Stu_zhouyc-CSDN博客

原创模型评估与选择

模型评估误差：实际输出与预测输出之间的差值经验误差：在训练集上的错误率；泛化误差：在测试集上的错误率欠拟合与过拟合欠拟合：模型学习能力低下；解决办法：增加训练轮数或从模型本身的特征出发：如NN增加神经元个数过拟合：模型学习能力过于强大解决办法：无法彻底避免；使经验误差最小化得意缓解训练、测试数据的划分留出法: 直接将数据集划分为两个...

2018-03-16 15:44:34 277

原创 EM算法及python实现

EM算法描述及应用场景：某个数据集中有一些数据是缺失的，那么这些数据填充为多少比较合适。这是一个比较有研究意义的问题。 EM很适合解决这个问题：最大期望算法（Expectation-maximization algorithm，又译期望最大化算法）在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中（此处理解为缺失值），参数的最大似然估计。在统计计算中，最大期望（EM）算法是在概...

2018-03-06 21:40:25 2963

原创 AdaBoost推导及实现

AdaBoost 属于集成学习算法的一种。集成学习通过构建多个学习任务。结构框架如图所示集成学习通过多个分类器进行结合，因而大多数情况下拥有较好的泛化性能，以AdaBoost为例，其集成方法各有千秋：可以是同一算法在不同设置下集成；也可以是在不同数据集上集成，一般数据进行抽样训练。不同的学习器要有一定的准确性，又要有差异性。如图是Ada的模型：右边矩形代表不同权重下的数据集

2018-01-17 22:52:17 352

原创牛顿法和拟牛顿法，大数开方

牛顿法和拟牛顿法是是求解最优化问题（函数）的常用方法，具有收敛速度快的特点。牛顿法考虑无约束最优化问题：其中xx为目标函数的极小值点 minx∈Rnf(x)\min_{\tiny x \in R^n} {f(x)} 假设f(x)f(x)具有二阶连续偏导数，若第k{\tiny k}次迭代值为xkx_{\tiny k},则可将f(x)f(x)在xkx_{\tiny k}附近二阶泰勒展开

2018-01-07 23:36:21 395

原创让R运行在jupter上

jupter notebook的好处不用多说了哈哈哈。用jupter写R做数据分析可视化是一个不错的选择。省得麻烦，直接安装Anaconda（py3或2都ok）自带了N多库，也好管理。安装R：用anaconda自带命令（linux下shell）输入：conda install -c r r-essentials更多内容见Anaconda官网： https://docs.a

2018-01-06 20:48:50 807

原创 Decision Tree

决策树是一个有监督的分类模型。以二分类为例，从复杂的离散型数据中学习一种模式。这里使用西瓜书的数据集编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜 1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是 2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是 3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是

2018-01-03 18:51:21 188

原创 The Economist(2014.11.24) Should digital monopolies be broken up?

The Economist

2017-12-29 16:17:46 616

原创 LogisticRegression

机器学习

2017-12-29 15:20:26 322

qq_26911619的博客