机器学习
文章平均质量分 83
redis_v
这个作者很懒,什么都没留下…
展开
-
Machine Learning:支持向量机通俗导论(理解SVM的三层境界)
转载自:http://blog.csdn.net/v_july_v/article/details/7624837前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式转载 2016-01-16 21:28:00 · 89865 阅读 · 0 评论 -
python机器学习库编程实战
一、概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱颖而出,而表现平平者则被历史所淡忘。随着机器学习社区的发展和实践验证,这群脱颖而出者也逐渐被人所认可和青睐,同时获得了更多社区力量的支持、改进和推广。转载 2016-03-17 10:11:30 · 1343 阅读 · 0 评论 -
深入FFM原理与实践
FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FFM原理的探索和应用的经验介绍给有兴趣的读者。前言在计算广告领域,点击率CTR(clic转载 2016-03-17 16:03:46 · 5050 阅读 · 0 评论 -
从最大似然到EM算法浅解
下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。 Jensen不等式表述如下: 如果f是凸函数,X是随机变量,那么转载 2016-01-16 20:39:19 · 559 阅读 · 0 评论 -
非常的好的协同过滤入门文章
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助转载 2016-02-27 15:38:19 · 582 阅读 · 0 评论 -
apriori算法
Apriori算法概述 Apriori算法也属于无监督学习,它强调的是“从数据X中能够发现什么”。Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅原创 2016-01-18 21:27:26 · 1824 阅读 · 0 评论 -
SVD奇异值分解
SVD分解SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论SVD矩阵分解,第三部分讨论低阶近似。本节讨论的矩阵都是实数矩阵。基础知识1转载 2016-02-28 13:32:11 · 648 阅读 · 0 评论 -
Spark Shell With Python
配置Spark环境 1) 下载spark:http://spark.apache.org/downloads.html 2) 进入spark-1.6.1-bin-hadoop2.4,为当前目录打开Python Spark Shell:[root@Master spark-1.6.1-bin-hadoop2.4]#./bin/pyspark读取文件,生成RDD格式原创 2016-06-15 17:39:13 · 2570 阅读 · 0 评论 -
CNN笔记:通俗理解卷积神经网络
通俗理解卷积神经网络1 前言 2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。 本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开始创业做在线教育后转载 2016-10-30 12:07:19 · 1160 阅读 · 0 评论 -
tensorflow基本使用方法
使用 TensorFlow, 你必须明白 TensorFlow:使用图 (graph) 来表示计算任务.在被称之为 会话 (Session) 的上下文 (context) 中执行图.使用 tensor 表示数据.通过 变量 (Variable) 维护状态.使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据.综述 Ten原创 2017-01-02 22:34:01 · 2581 阅读 · 0 评论 -
用rnn做文本生成
用RNN做文本生成举个小小的例子,来看看LSTM是怎么玩的我们这里用温斯顿丘吉尔的人物传记作为我们的学习语料。(各种中文语料可以自行网上查找,英文的小说语料可以从古登堡计划网站下载txt平文本:https://www.gutenberg.org/wiki/Category:Bookshelf)第一步,一样,先导入各种库import num原创 2017-01-02 22:40:45 · 6901 阅读 · 1 评论 -
Machine Learning:神经网络简介
神经网络(neural network,NN)是生物科学和信息科学交叉的产物。生物学家研究人脑神经的工作过程,发现神经元(神经细胞)和神经元之间通过突起(轴突和树突)的相连,神经细胞感受到刺激之后产生兴奋并通过细胞突起将兴奋传导给与之有连接的神经元。神经元的连接大多是相邻层间的连接,神经细胞总体上呈现分层结构,感受器中的神经接收外界刺激,神经中枢的神经元决定人脑的意识。如图为一个神经细胞的结构:原创 2016-01-14 19:00:32 · 752 阅读 · 0 评论 -
Machine Learning-感知器学习算法
引言这里开始介绍神经网络方面的知识(Neural Networks)。首先我们会介绍几个监督式学习的算法,随后便是非监督式的学习。一、感知器学习算法基本介绍1.神经网络就像进化计算,神经网络又是一个类似的概念。神经网络由一个或者多个神经元组成。而一个神经元包括输入、输出和“内部处理器”。神经元从输入端接受信息,通过“内部处理器”将这些信息进行一定的处理,最后通过输出端输出。转载 2016-01-06 16:08:00 · 1659 阅读 · 0 评论 -
Machine Learning-AdaBoost算法
Adaboost介绍 Adaboost是一种迭代算法,它的核心思想是在初始的权重数据分布下训练得到一个弱分类器(2类分类器),之后通过这个弱分类器判断准确率,对那些错判(即原本标签是1的因计算得到的0,或者相反情况)的样本的加大权重,而对于分类正确的样本,降低其权重,这样被分错的样本就被突出出来,下次训练就会更多考虑这些被错分的样本,因此得到一个新的样本分布(样本权重都被更新了)。在新的分原创 2016-01-11 22:05:13 · 950 阅读 · 1 评论 -
K-Means算法
K-means算法概述在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类原创 2016-01-17 13:50:54 · 694 阅读 · 0 评论 -
机器学习中距离和相似性计算方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0 // 到自转载 2016-01-17 14:37:13 · 2141 阅读 · 0 评论 -
K近邻分类算法
KNN是一种监督学习算法KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的。KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归。如果K=1,那么新数据被简单分配给其近邻的类。KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义。转载 2016-01-17 16:34:28 · 2625 阅读 · 0 评论 -
ID3算法
摘要 决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。 先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),转载 2016-01-18 15:50:11 · 1056 阅读 · 0 评论 -
C4.5算法
C4.5决策树C4.5决策树在ID3决策树的基础之上稍作改进,请先阅读ID3算法C4.5克服了ID3的2个缺点:1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性2.不能处理连贯属性OutlookTemperatureHumidityWindyPlayGolf?sunny8585FALSEno转载 2016-01-18 16:17:07 · 784 阅读 · 0 评论 -
CART分类与回归树
决策树的类型(1)分类树:输出是样本的类标;(2)回归树:输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。 分类回归树(CART,Classification And Regression Tree)也属于一种决策树, 包含了上述两种决策树,之前我们介绍了基于ID3算法和C4.5算法的决策树。这里只介绍CART是怎样用于分类的。 分类回归树是一原创 2016-01-19 11:47:50 · 1492 阅读 · 0 评论 -
单层感知机
神经网络最简单的结构就是单输出的单层感知机,单层感知机只有输入层和输出层,分别代表了神经感受器和神经中枢。下图是一个只有2个输入单元和1个输出单元的简单单层感知机。在图中,x 1、w2代表神经网络的输入神经元受到的刺激,w1、w2代表输入神经元和输出神经元间连接的紧密程度,w3代表输出神经元的兴奋阈值。Y是输出神经元受到的刺激总和,y为输出神经元的输出。(单层感知机)原创 2016-01-14 19:23:09 · 6446 阅读 · 1 评论 -
多层感知机
1、单输出多层感知机在单层感知机的基础上增加若干个(本文增加一个)隐层,得到多层感知机(Multi Perceptron Machine,MLP)。结构如图所示: (单输出多层感知机)图中各变量满足公式:原创 2016-01-14 20:07:42 · 2952 阅读 · 0 评论 -
Python入门
计算机视觉/computer vision是一个火了N年的topic。持续化升温的原因也非常简单:在搜索/影像内容理解/医学应用/地图识别等等领域应用太多,大家都有一个愿景『让计算机能够像人一样去”看”一张图片,甚至”读懂”一张图片。有几个比较重要的计算机视觉任务,比如图片的分类,物体识别,物体定位于检测等等。而近年来的神经网络/深度学习使得上述任务的准确度有了非常大的提升。加之最近做了几个不大不小的计算机视觉上的项目,爱凑热闹的博主自然不打算放过此领域,也边学边做点笔记总结,写点东西,写的不正确的地方,原创 2016-01-20 15:08:40 · 646 阅读 · 0 评论 -
Python的机器学习库汇总与梳理
出处:点这里由于最近手头项目需要,我查阅了Python相关的机器学习库。我将不断地更新本贴,从而详细说明各个库的优劣。一、前提 在Pthon下做机器学习,需要科学计算包和绘图库的支持,科学计算则是NumPy或SciPy,似乎NumPy更流行些。画图工具包则必定为matplotlib。这些都是开源、免费使用的,选择这些库主要的原因是做线性代数中的矩阵计算极为便利,而且效率比自转载 2016-01-22 22:58:41 · 827 阅读 · 0 评论 -
Machine Learning-朴素贝叶斯算法
贝叶斯定理 如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为: 贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则原创 2016-01-11 21:48:58 · 675 阅读 · 0 评论 -
data-sklearn数据预处理 Preprocessing
1. Standardization, or mean removal and variance scalingStandardization即标准化,尽量将数据转化为均值为零,方差为一的数据。实际中我们会忽略数据的分布情况,仅仅是通过改变均值来集中数据,然后将非连续特征除以他们的标准差。sklearn中 scale函数提供了简单快速的single array-like数据集操作转载 2017-12-13 10:58:23 · 846 阅读 · 0 评论