方法论
文章平均质量分 80
你看起来很好吃
这个作者很懒,什么都没留下…
展开
-
delta法则(梯度下降)
背景:尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。 delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能转载 2016-09-19 11:32:41 · 10998 阅读 · 1 评论 -
感知器法则
感知器以一个实数值向量作为输入,计算这些输入的线性组合,然后如果结果大于某个阈值就输出 1,否则输出-1。更精确地,如果输入为 x1 到 xn,那么感知器计算的输出为: 感知器法则 > image2016-7-16 18:15:44.png" src="http://wiki.sankuai.com/download/attachments/550800419/image2016-7-16%转载 2016-09-19 11:33:52 · 1680 阅读 · 1 评论 -
数据挖掘步骤
一、问题分析确定目标变量及其类型(标称、二元、序数、数值)确定挖掘任务类型(分类、聚类、关联、预测、推荐等)二、数据采集ETL特征建设数据探索性分析数据预处理数据存储三、训练模型单模型组合模型模型选择(交叉验证、测试误差、算法优劣等)四、测试模型测试误差模型评估(准确率、召回率、AUC、MSE、提升度等)五、模型迭代线上测试返原创 2016-09-19 11:35:43 · 568 阅读 · 0 评论 -
数据预处理
一、缺失值填充方法:零值填充平均值/中位数填充(该属性的平均值/中位数;与该元组属同一类的所有样本的均值/中位数)忽略元组推理(回归预测等)二、噪声数据三、去重四、数据降维主成分分析GBDT相关性分析因子分解五、数据抽样六、衍生特征原创 2016-09-19 11:36:13 · 346 阅读 · 0 评论 -
模型评估方法
分类模型:1、准确率、覆盖率(召回)、命中率、Specificity(负例的覆盖率)先看一个混淆矩阵:实际\预测10 1(正例)ab(弃真)a+b0(负例)c(取伪)dc+d a+cb+da+b+c+d转载 2016-09-19 11:36:52 · 11190 阅读 · 0 评论 -
牛顿法和拟牛顿法
求解无约束最优化问题的常用方法,收敛速度快。 牛顿法:迭代算法,每一步需要求解目标函数的海赛矩阵的逆矩阵,计算比较复杂。1、目标函数的二级泰勒展开,及极小值的必要条件(一阶导数为0),可以求出每一步迭代值的步长:其中,Hk为海赛矩阵,gk为一阶导数在xk处的值。2、算法流程:3、每一步迭代都是下降方向。证明:转载 2016-09-19 11:37:51 · 268 阅读 · 0 评论 -
过拟合问题
问题描述:如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(损失函数可能几乎为 0),但是可能会不能推广到新的数据。回归问题 : 过拟合问题 > image2016-7-17 17:26:8.png" src="http://wiki.sankuai.com/download/attachments/551391419/image2016-7-1转载 2016-09-19 11:38:27 · 301 阅读 · 0 评论 -
统计学习方法-读书笔记
--李航 著统计学习包括:监督学习、非监督学习、半监督学习、强化学习等。监督学习:利用训练数据集(人工给出输出变量)学习一个模型(目标:训练样本输出与模型输出的误差足够小),再用模型对测试样本集进行预测。第二章:感知机感知机是二分类的线性分类模型。分为原始形式和对偶形式。1957年提出,是神经网络和支持向量机的基础。原创 2016-09-19 11:40:11 · 631 阅读 · 0 评论