机器学习
文章平均质量分 75
_Kevin_Duan_
这个作者很懒,什么都没留下…
展开
-
Word2vec学习笔记总结
git地址: https://github.com/duankai/latex_book/tree/master/word2vec原创 2020-06-30 14:15:28 · 228 阅读 · 0 评论 -
机器学习基础笔记总结
最近在学习latex,将之前的机器学习基础知识相关的笔记用latex整理了以下,源地址如下:https://github.com/duankai/latex_book,感兴趣的可以自由下载,也可以随意使用latex的格式。pdf 效果如下,文件可在http://dwz.date/bnzX 下载...原创 2020-06-28 09:57:44 · 237 阅读 · 0 评论 -
机器学习笔记(二十)——求解最大熵模型
一、问题的引出 最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。 对于给定的训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)}T=\{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\}及特征函数fi(x,y),i=1,2,…,nf_i(x,y), i=1, 2, \dots, n,最大熵模型的学习等价原创 2016-12-11 18:44:32 · 1917 阅读 · 0 评论 -
机器学习笔记(十九)——最大熵原理和模型定义
一、最大熵原理 最大熵原理是概率模型学习的一个准则。最大熵原理认为,在学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵模型也可以表述为在满足约束条件的模型集合中选取熵最大的模型。 假设离散型随机变量XX的概率分布式P(X)P(X),则其熵是: H(P)=−∑xP(x)logP(x)H(P)=-\sum_x P(x)原创 2016-11-27 18:57:13 · 11418 阅读 · 0 评论 -
Word2Vec训练同义词模型
一、需求描述 业务需求的目标是识别出目标词汇的同义词和相关词汇,如下为部分目标词汇(主要用于医疗问诊): 尿 痘痘 发冷 呼吸困难 恶心数据源是若干im数据,那么这里我们选择google 的word2vec模型来训练同义词和相关词。二、数据处理 数据处理考虑以下几个方面: 1. 从hive中导出不同数据量的数据 2. 过滤无用的训练样本(例如字数少于原创 2017-03-05 11:27:45 · 13443 阅读 · 19 评论 -
Spark下的word2vec模型训练
一、引言 前边一节介绍了Word2Vec模型训练同义词,那么在大数据量的情况下,我们自然想到了用spark来进行训练。下面就介绍我们是如何实现spark上的模型训练。二、分词 模型训练的输入是分好词的语料,那么就得实现spark上的分词。def split(jieba_list, iterator): sentences = [] for i in iterator:原创 2017-03-20 20:24:35 · 6566 阅读 · 0 评论 -
Doc2Vec训练相似文章识别模型
一、需求描述 由于在平台上发布的文章是来源于不同渠道和作者的,发布的文章也存在一定程度上的抄袭或者太相似。为了避免对用户体验造成影响,避免不必要的文章费用支出,需要识别出哪些文章是相似的。数据源是若干文章(中文),初步选择方法为利用doc2vec模型,它类似于word2vec,下面就让我们看看是怎么达到我们的目的。二、数据预处理从mysql源表导入到hive由于某些文章的内容是图片,这种原创 2017-05-14 10:47:44 · 4427 阅读 · 2 评论 -
深入理解simhash原理
一、LSH 介绍 LSH(Locality sensitive hashing)是局部敏感性hashing,它与传统的hash是不同的。传统hash的目的是希望得到O(1)的查找性能,将原始数据映射到相应的桶内。 LSH的基本思想是将空间中原始数据相邻的2个数据点通过映射或者投影变换后,这两个数据点在新的空间中的相邻概率很大,不相邻的点映射到同一个桶的概率小。我们可以看到将一个在超大原创 2017-07-30 11:04:48 · 2283 阅读 · 0 评论 -
(论文阅读笔记1)Collaborative Metric Learning(一)(WWW2017)
一、摘要 度量学习算法产生的距离度量捕获数据之间的重要关系。这里,我们将度量学习和协同过滤联系起来,提出了协同度量学习(CML),它可以学习出一个共同的度量空间来编码用户偏好和user-user 和 item-item的相似度。二、背景2.1 Metric Learning 令χ={x1,x2,…,xn}\chi = \{x_1, x_2,\dots, x_n\}是空间Rm\mathb原创 2017-07-31 22:38:50 · 2869 阅读 · 3 评论 -
(论文阅读笔记1)Collaborative Metric Learning(二)(WWW2017)
三、协同度量学习 这一部分,我们讨论CML作为一种更自然的方法获得关联关系。CML的思路是这样的:我们在已知正例关系的user-item集合S\mathcal{S}上建立一个隐性反馈模型,并且学习user-item的距离作为他们的关系。学习到的距离使得S\mathcal{S}中的对更加紧密,而S\mathcal{S}之外的user-item对相对的远离。这个处理过程,源于三角不等性。也可以聚类原创 2017-08-20 17:33:02 · 1756 阅读 · 1 评论 -
机器学习笔记(五)续——朴素贝叶斯算法的后验概率最大化含义
上一节中讲了朴素贝叶斯算法将实例分到后验概率最大的类。这等价于期望风险最小化。假设使用0-1损失函数: L(Y,f(X))={1,0,Y≠f(X)Y=f(X) L(Y, f(X)) = \Bigg\{ \begin{array} {ll} 1, & Y \neq f(X) \\ 0, & Y = f(X) \end{array} 上式中的f(x)f(x)是分类原创 2016-04-04 22:06:00 · 5483 阅读 · 8 评论 -
机器学习笔记(十七)——EM算法的推导
一、Jensen 不等式 在EM算法的推导过程中,用到了数学上的Jensen不等式,这里先来介绍一下。 若Ω是有限集合{x1,x2,…,xn}" role="presentation" style="position: relative;">{x1,x2,…,xn}{x1,x2,…,xn}\{x_1,x_2,\ldots,x_n\},而μ是Ω上的正规计数测度,则不等式的一原创 2016-10-22 12:45:00 · 3463 阅读 · 0 评论 -
[科研笔记] 关于人工智能与算法项目的思考
原链接:https://blog.csdn.net/walilk/article/details/77131929前言 [科研笔记] 系列是我在科研道路上的随笔和思考,内容不加以局限,是一个开放的文章系列,这也是给自己一点自由的空间。 本文是我结合自身经验给的一些出关于人工智能技术和算法项目管理方面的思考。欢迎大家批评指正,提出宝贵的意见。 文章小节安排如下: 1. ...转载 2019-09-06 16:36:35 · 565 阅读 · 0 评论 -
项目过程管理
项目过程管理1. 项目所需要的文档(需要归档)需求文档(需求评审时的问题列表)技术文档(技术评审时的问题列表)排期文档开发文档(记录开发过程中遇到的难题和解决方案)测试文档(测试提供UT报告和压测报告)风险点(列出项目风险点并做好预案)上线时的checklist算法/服务维护列表算法/服务过程中的问题记录(包括问题本质和解决方案)算法的输入、输出记录2. 需求评审需求...原创 2019-09-12 14:39:10 · 496 阅读 · 0 评论 -
机器学习笔记(十八)——HMM的参数估计
一、HMM中的第三个基本问题 参数估计问题:给定一个观察序列O=O1O2…OTO=O_1O_2\dots O_T,如何调节模型μ=(A,B,π)\mu = (A, B, \pi)的参数,使得P(O|μ)P(O|\mu)最大化: argmaxμP(Otraining|μ)arg \max_{\mu} P(O_{training}|\mu) 模型的参数是指构成μ\mu的πi,aij,bj(原创 2016-10-29 12:03:21 · 9601 阅读 · 0 评论 -
机器学习笔记(十六)——EM算法概述
一、引言 按照计划,这周应该学习HMM中的第三个基本问题:参数估计问题,但是其中的内容涉及到了EM算法,所以打算先把EM算法搞定之后再去继续HMM的问题。EM算法的推导过程比较复杂,这节我只给出简述和计算公式,待推导完成后再贴上推导过程。二、一个实例例1 (三硬币模型) 假设有3枚硬币,分别记为A,B,CA,B,C。这些硬币正面出现的概率分别是π,p,q\pi, p,q。进行如下掷硬币试验:先原创 2016-10-16 12:28:25 · 1820 阅读 · 0 评论 -
机器学习笔记(九)——决策树的生成与剪枝
一、决策树的生成算法 基本的决策树生成算法主要有ID3和C4.5, 它们生成树的过程大致相似,ID3是采用的信息增益作为特征选择的度量,而C4.5采用信息增益比。构建过程如下: 从根节点开始,计算所有可能的特征的信息增益(信息增益比),选择计算结果最大的特征。 根据算出的特征建立子节点,执行第一步,直到所有特征的信息增益(信息增益比)很小或者没有特征可以选择为止。原创 2016-05-08 11:43:00 · 3898 阅读 · 0 评论 -
机器学习笔记(八)——决策树模型的特征选择
一、引言决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间,特征选择是要选出对训练数据集具有分类能力的特征,这样可以提高决策树的学习效率。如果利用某一个特征进行分类与随机分类的结果没有很大的差别,则称这个特征是没有分类能力的。这样的特征可以丢弃。常用的特征选择的准则是信息增益和信息增益比。二、信息增益要了解信息增益,我们要先知道熵与条件熵的定义。2.1 熵熵是无序度的原创 2016-05-01 11:47:06 · 11469 阅读 · 0 评论 -
机器学习笔记(七)——决策树模型
引言决策树(Decision Tree)是一种基本的分类和回归方法。它的扩展方法有GBDT和GBRT 等。决策树模型的学习过程主要有特征选择、决策树生成和剪枝。主要算法有ID3、C4.5和CART等。一、决策树模型决策树首先是一个树形结构,它包括两种类型的节点:内部节点和叶节点。内部节点是属性,叶节点是具体的分类。当决策树根据一些学习方法建立好之后,就可以进行实例的预测了,首先从根节点开始,对应决策原创 2016-04-24 22:26:24 · 887 阅读 · 0 评论 -
机器学习笔记(六)——朴素贝叶斯法的参数估计
一、极大似然估计在上一笔记中,经过推导,得到了朴素贝叶斯分类器的表示形式: y=argmaxckP(Y=ck)∏jP(X(j)=x(j)|Y=ck)(1) y = arg \max_{c_k} P(Y=c_k)\prod_jP(X^{(j)} = x^{(j)}| Y=c_k) (1)也就是说,朴素贝叶斯方法的学习是对概率P(Y=ck)P(Y=c_k)和P(X(j)=x(j)|Y=ck)P原创 2016-04-10 11:26:50 · 6763 阅读 · 0 评论 -
机器学习笔记(五)——朴素贝叶斯分类
一、分类问题分类实际上是我们在日常生活中经常使用的。比如说,在工作中,把自己手头的任务分为轻重缓急,然后按照优先级去完成它们。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。从数学的角度看C={c1,c2,…,ck}C=\{c_1, c_2, \dots, c_k\}是类别的集合,集合X={x1,x2,…,xk}X=\{x_1,x_2,\dots,x_k\}是输入集合 。这里,对于给定的输原创 2016-03-31 23:06:17 · 1268 阅读 · 0 评论 -
机器学习笔记(四)——最大似然估计
一、最大似然估计的基本思想最大似然估计的基本思想是:从样本中随机抽取n个样本,而模型的参数估计量使得抽取的这n个样本的观测值的概率最大。最大似然估计是一个统计方法,它用来求一个样本集的概率密度函数的参数。原创 2016-03-20 19:59:23 · 7287 阅读 · 0 评论 -
机器学习笔记(三)——正则化最小二乘法
一. 模型的泛化与过拟合在上一节中,我们的预测函数为: f(x;ω)=ωTxf(x;\omega) = \omega^Tx 其中, x=[x1],ω=[ω1ω0]x=\begin{bmatrix}x\\1\end{bmatrix},\omega=\begin{bmatrix}\omega_1\\\omega_0\end{bmatrix} 上述称为线性模型,我们也可以将xx扩原创 2016-03-06 10:57:29 · 11271 阅读 · 1 评论 -
机器学习笔记(二)——多变量最小二乘法
机器学习笔记(二)——多变量最小二乘法在上一节中,我们介绍了最简单的学习算法——最小二乘法去预测奥运会男子100米时间。但是可以发现,它的自变量只有一个:年份。通常,我们所面对的数据集往往不是单个特征,而是有成千上万个特征组成。那么我们就引入特征的向量来表示,这里涉及到矩阵的乘法,向量,矩阵求导等一些线性代数的知识。一. 将拟合函数由单变量改写为多变量设我们的拟合函数 f(xi;ω)=ωTxif原创 2016-02-28 12:17:32 · 14948 阅读 · 4 评论 -
机器学习笔记(十)——Logistic Function AND Softmax Function
一、说明 在逻辑回归和一些机器学习算法中, Logistic函数和Softmax函数是常用到的,今天就先讨论下这两个函数。二、Logistic Function Logistic function一般用于二分类问题,它的函数定义如下: f(x)=11+e−x(1)f(x) = \frac{1}{1+e^{-x}} (1) 它的图像如下: 由于logistic原创 2016-06-03 17:11:21 · 2927 阅读 · 0 评论 -
机器学习笔记(十一)——逻辑回归
一、引言 虽然说是逻辑回归,其实既可以用它做回归,也可以用它做分类。一般我们从最简单的二分类问题开始了解他,当然也可以做多分类。二、Logistic Regression 的一般步骤找一个合适的假设构造损失函数让损失函数最小,求出对应的参数值三、二分类问题下Logistic Regression的过程3.1 Logistic Function 在机器学习笔记(十)——Logist原创 2016-07-09 11:38:20 · 656 阅读 · 0 评论 -
机器学习笔记(十三)——隐马尔科夫模型
一、隐马尔科夫模型 在马尔科夫模型中,每一个状态代表了一个可以观察的事件,所以,马尔科夫模型有时称为可视马尔科夫模型(visible Markov model,VMM),这在某种程度上限制了模型的适应性。在隐马尔科夫模型(HMM)中,我们不知道模型所经过的状态序列,而只知道状态的概率函数,也就是说观察到的事件是状态的随机函数,此模型是一个双重的随机过程。其中,模型的状态转换过程是隐蔽的,可观察原创 2016-09-15 12:07:13 · 1664 阅读 · 0 评论 -
机器学习笔记(十五)——HMM序列问题和维特比算法
一、引言 这篇blog主要讲序列问题和其解法——维特比算法。二、HMM中的第二个基本问题序列问题:给定一个观察序列O=O1O2…OTO=O_1O_2\dots O_T和模型u=(A,B,π)u=(\boldsymbol{A,B,\pi}),如何快速有效地选择在一定意义下”最优”的状态序列Q=q1q2…qTQ=q_1q_2\dots q_T,使得该状态序列“最好地解释”观察序列?三、定义最优状态原创 2016-10-03 11:12:12 · 2404 阅读 · 0 评论 -
机器学习笔记(十四)——HMM估计问题和前向后向算法
一、隐马尔科夫链的第一个基本问题 估计问题:给定一个观察序列O=O1O2…OTO=O_1O_2\dots O_T和模型u=(A,B,π)u = (\boldsymbol{A,B,\pi}),如何快速地计算出给定模型uu情况下,观察序列OO的概率, 即P(O|u)P(O|u)?二、求解观察序列的概率 其实,求解这个问题就是一个解码问题。 对于任意的状态序列Q=q1q2…qTQ=q_原创 2016-09-25 11:49:00 · 2832 阅读 · 2 评论 -
机器学习笔记(一) : 线性建模——最小二乘法
讨论这个方法之前,先说些题外话。首先,我感觉机器学习是一门值得我们去了解和学习的一门技术,它不仅仅应用于我们的生活,而且不断地在改变着我们的方方面面。虽然很早就已经接触它,并开始学习,但是总体感觉是学习的比较混乱,仅以从今天开始的一系列文章作为重新总结和学习机器学习的一个新的历程。其次,学习机器学习,要有耐心,要执着,要不断总结和实现。最后,也是最重要的,要明白你的初衷是什么,也就是为什么要学习它。原创 2016-01-17 12:03:36 · 4514 阅读 · 3 评论