机器学习和数据挖掘
文章平均质量分 93
奔跑的前浪
看红尘冉冉,须臾之间,参遍昙华演变。问法珠玄玄,方寸有变,听尽默剑说禅
展开
-
推荐系统协同过滤
推荐系统的应用遍及电商网站,基本上的电商网站几乎都有推荐系统,比如一些电影网站,当你看一部恐怖片后,网站会推荐一些口味比较相似的恐怖片,还有就是你在淘宝浏览了一个某品牌的手机,那淘宝可能推荐其他品牌的手机,或同类品牌不同类型的手机。可以说推荐系统已经全面的应用到各种场合,下面我们就来一起学习推荐系统之协同过滤; 协同过滤可以分为基于物品的协同过滤、基于用户的协同过滤;一般电商网站用基于物品的原创 2017-02-05 12:58:59 · 702 阅读 · 0 评论 -
svm算法 最通俗易懂讲解
最近在学习svm算法,借此文章记录自己的学习过程,在学习很多处借鉴了z老师的讲义和李航的统计,若有不足的地方,请海涵;svm算法通俗的理解在二维上,就是找一分割线把两类分开,问题是如下图三条颜色都可以把点和星划开,但哪条线是最优的呢,这就是我们要考虑的问题;首先我们先假设一条直线为 W•X+b =0 为最优的分割线,把两类分开如下图所示,那我们就要解决的是怎么获取这条最优直线呢转载 2017-04-21 16:57:54 · 130308 阅读 · 15 评论 -
逻辑Logistic回归原理和实现
首先申明:引用此博客为学习记录用,中间引用了Andrew NG的视频内容和Z老师的授课内容,因个人能力有限若有不足的地方,欢迎大家提出一起研究学习; 第一我们先给予逻辑回归的定义:逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。转载 2017-05-01 12:52:02 · 2891 阅读 · 0 评论 -
线性回归原理和实现基本认识
一:介绍 线性回归在假设特证满足线性关系,根据给定的训练数据训练一个模型,并用此模型进行预测。先举个简单的例子;我们假设一个线性方程 Y=2x+1, x变量为商品的大小,y代表为销售量;当月份x =5时,我们就能根据线性模型预测出 y =11销量;对于上面的简单的例子来说,我们可以粗略把 y =2x+1看到回归的模型;对于给予的每个商品大小都能预测出销量;当然这个模型怎么获取到就是转载 2017-04-28 17:04:57 · 72258 阅读 · 8 评论 -
机器学习之 损失函数和风险函数
当样本容量足够大的时候,经验风险最小化能保证有很好的学习效果,但样本数量小的时候,就会产生“过拟合”现象。因为参数太多,会导致我们的模型复杂度上升,容易过拟合(训练误差会很小),但训练误差小不是我们的终极目标,我们的目标也是测试误差也小,所以我们要保证模型最简单的基础下最小化训练误差;模型复杂度可以通过正则函数来实现(约束我们的模型特征),强行的让模型稀疏,低秩,平滑等转载 2017-03-09 15:26:07 · 7918 阅读 · 0 评论 -
sparkmlib使用Pipeline实现简单的逻辑回归
sparkmlib pipeline原创 2017-02-15 16:36:45 · 1915 阅读 · 2 评论 -
sparkMlib逻辑回归分析实现
sparkMlib实现逻辑回归分析原创 2017-02-15 15:02:55 · 1362 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却不知道为什么拉格朗日乘子法(Lagrange Multiplier) 和KKT条件能够起作用,为什么要这样去求取最优值呢?转载 2017-02-23 14:51:54 · 488 阅读 · 0 评论 -
SparkMlib实现线性回归
sparkMlib实现线性回归原创 2017-02-14 18:05:37 · 2215 阅读 · 2 评论 -
机器学习 贝叶斯分类
一:贝叶斯分类介绍 贝叶斯分类器是一个统计分类器。它们能够预测类别所属的概率,如:一个数据对象属于某个类别的概率。贝叶斯分类器是基于贝叶斯定理而构造出来的。对分类方法进行比较的有关研究结果表明:简单贝叶斯分类器(称为基本贝叶斯分类器)在分类性能上与决策树和神经网络都是可比的。在处理大规模数据库时,贝叶斯分类器已表现出较高的分类准确性和运算性能。基本贝叶斯分类器假设一个指定类别中各属性的原创 2017-02-08 15:41:58 · 969 阅读 · 1 评论 -
sparkMlib实现协同过滤算法
协同过滤常被应用于推荐系统。这些技术旨在补充用户-商品关联矩阵中所缺失的部分。MLlib当前支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预测缺失的元素。为此,我们实现了交替最小二乘法(ALS) 来学习这些隐性语义因子。在 MLlib 中的实现有如下的参数:numBlocks 是用于并行化计算的分块个数 (设置为-1为自动配置)。rank原创 2017-02-17 15:20:28 · 2555 阅读 · 0 评论 -
神经网络分类算法 数据挖掘
神经网络分类介绍: 神经网络就是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重。在网络学习阶段,网络通过调整权重来实现输入样本与其相应(正确)类别的对应。由于网络学习主要是针对其中的连接权重进行的,因此神经网络的学习有时也称为连接学习;神经网络的优点就是对噪声数据有较好适应能力,并且对未知数据也具有较好的预测分类能力原创 2017-02-09 16:36:47 · 16840 阅读 · 0 评论 -
决策树分类
分类方法用于预测数据对象的离散类别;而预测则用于预测数据对象的连续取值;原创 2017-02-08 10:06:49 · 1718 阅读 · 0 评论 -
关联规则挖掘-频繁模式挖掘
关联规则:就是从给定的数据集中搜索数据项存在的有价值联系原创 2017-02-07 17:29:16 · 6014 阅读 · 0 评论 -
决策树、随机森林简单原理和实现
本文申明:此文为学习记录过程,中间多处引用大师讲义和内容一:概念决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。看了一遍概念后,我们先从一个简单的案例开翻译 2017-05-01 20:37:03 · 11822 阅读 · 2 评论