机器学习基础/原理
文章平均质量分 80
机器学习基础/原理
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
微信视频号:毛毛讲书,欢迎关注进一步交流!
展开
-
基于位置的点击模型
主流的点击模型大都基于点击模型方面最基础的研究,认为,根据这个假设,。因此大多数的点击模型都是基于位置的构建方式(我们称作基于位置的点击模型)。另外,由于点击模型中最主要的信息来源为用户的交互信息(主要是点击信息),因此模型对于用户行为以及结果相关性的推断都来源于点击行为。因此大多数的点击模型都假设搜索页面中的所有结果是同质的(所有具有类似的形式,仅在内容上有所区别,对应到模型中即为仅在结果相关性上有所区别),在排除结果相关性影响之后这些结果对于用户的行为不构成影响。原创 2021-06-29 10:55:32 · 688 阅读 · 0 评论 -
《搜索和推荐中的深度匹配》——2.3 搜索中的潜在空间模型
接下来,我们以潜在空间为基础介绍匹配模型。【1】中找到了搜索中语义匹配的完整介绍。具体来说,我们简要介绍了在潜在空间中执行匹配的代表性搜索方法,包括偏最小二乘(PLS)【2】,潜在空间中的规则化匹配(RMLS)【3】,以及监督语义索引(SSI)【4】【5】。原创 2021-06-07 15:07:49 · 382 阅读 · 0 评论 -
《搜索和推荐中的深度匹配》——2.2 搜索和推荐中的匹配模型
接下来,我们概述搜索和推荐中的匹配模型,并介绍潜在空间中的匹配方法。原创 2021-05-28 16:39:43 · 544 阅读 · 0 评论 -
《搜索和推荐中的深度匹配》——经典匹配模型 2.1 匹配学习
最近,研究人员发现,传统的IR中的单变量评分模式是次优的,因为它无法捕获文档间的关系和本地上下文信息。与其他监督学习问题类似,我们可以将学习匹配的目标定义为最小化损失函数,该函数表示匹配函数在训练数据和测试数据上可以达到多少精度。,N是训练数据的大小。在搜索中,x上的特征可以是查询x的语义类别,y上的特征可以是PageRank分数和文档y的URL长度。的函数,其中x和y分别是查询中的查询和文档以及推荐中的用户和项目。定义的特征可以是传统IR中的BM25,也可以是传统机器学习或深度学习中学习的函数。原创 2021-05-18 15:23:51 · 1758 阅读 · 2 评论 -
密度聚类DBSCAN、HDBSCAN
该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。这样会使得,**密集区域的样本距离不受影响,而稀疏区域的样本点与其他样本点的距离被放大。用它切割,面最近的节点作为聚类的一个类,而红线上面的聚起来的都是散点。如果当前节点的稳定性小于两个子结点的稳定性总和,那么我们将该节点的稳定性设置为其子节点的稳定性之和。经过聚类树的压缩操作,树中已经没有了散点,我现在的任务只是将比较相近的节点合并到一族中去,我们最后选择的簇能够有更好的稳定性。原创 2020-10-20 18:33:19 · 3083 阅读 · 0 评论 -
推荐系统提纲笔记
CF 模型 ( collaborative filtering )步骤input layer:只有两个,分别是 userid ( one-hot ),itemid ( one-hot )representation function:线性 embedding layermatching function:向量内积 ( inner product )步骤。原创 2020-03-29 11:50:58 · 1009 阅读 · 1 评论 -
自动微分(Automatic Differentiation)简介
http://blog.csdn.net/aws3217150/article/details/70214422现代深度学习系统中(比如MXNet, TensorFlow等)都用到了一种技术——自动微分。在此之前,机器学习社区中很少发挥这个利器,一般都是用Backpropagation进行梯度求解,然后进行SGD等进行优化更新。手动实现过backprop算法的同学应该可以体会到其中的复杂性和易转载 2018-01-16 14:56:53 · 1160 阅读 · 0 评论 -
机器学习面试问题集(2018-3-13更新)
http://blog.csdn.net/u011239443/article/details/763602941 基础概念1.1 熵、联合熵、条件熵、交叉熵与相对熵的意义?1.2 归一化方法?1、线性函数归一化(Min-Max scaling) 线性函数将原始数据线性化的方法转换到[0 1]的范围,归一化公式如下: 2、0均值标准化(Z-score sta...原创 2017-07-30 11:43:27 · 22702 阅读 · 1 评论 -
《机器学习实战(Scala实现)》(三)——决策树
【代码】《机器学习实战(Scala实现)》(三)——决策树。原创 2017-03-26 18:19:45 · 5122 阅读 · 1 评论 -
《deep learning》学习笔记(4)——数值计算
对于机器学习的问题,有一部分可以通过数学推导的方式直接得到用公式表达的解析解,但对绝大多数的问题来说,解析解是不存在的,需要使用迭代更新的方法求数值解。然而实数的精度是无限的,而计算机能够表达的精度是有限的,这就涉及到许多数值计算方法的问题。4.1 上溢和下溢由于计算机表达实数的精度的有限,在某些情况下许多复杂的复合运算中的四舍五入会导致一个接近0的小数变为0或者一个非常大的数被认为是无穷,这都会原创 2017-09-21 09:57:47 · 1064 阅读 · 0 评论 -
基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609 from CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像。在以前,大多媒体会...原创 2016-12-19 16:17:06 · 24628 阅读 · 26 评论 -
《深度学习Ng》课程学习笔记03week2——机器学习(ML)策略(2)
2.1 进行误差分析标注错误: 2.2 清楚标注错误的数据 纠正错误 dev / test 数据集的方法: 2.3 快速搭建你的第一个系统,并进行迭代尽快的搭建你的第一个系统。 2.4 在不同的划分上进行训练并测试对于不同来源的数据,最佳方案可能并不是将其混合。如,我们最终需要预测的数据来自于app,那么 dev / test 数据集应该也要来自于 app。option 2 会是更好的选择:原创 2017-09-29 12:33:45 · 749 阅读 · 0 评论 -
《深度学习Ng》课程学习笔记03week1——机器学习(ML)策略(1)
1.1 为什么是 ML 策略各种各样的机器学习策略。如何选择、使用? 1.2 正交化调参时,应将两个参数进行正交,降低操作的复杂: 1.3 单一数字评估指标 用平均值来代替多个值: 1.4 满足和优化指标准确率和运行时间之间的协调: 1.5 训练 / 开发 / 测试集划分1.6 开发集合测试集的大小传统开发集合测试集的大小: 深度学习下,数据量很大,1%的开发集 和 1%的测试集数据原创 2017-09-27 20:58:36 · 810 阅读 · 0 评论 -
论文阅读:《基于机器学习的企业定价算法研究》
《基于机器学习的企业定价算法研究》 冯 平,宣慧玉,高宝俊 (西安交通大学管理学院.陕西西安710049)论文阅读笔记ASPEN中企定价的机理是:在定价过程中,企业首先要根据叫个因素判断自己当前所处的市场状态,再采取相应的对策。在每种市场状态下,企业都有三种对策:提高价格,降低价格和维持价格不变。ASPEN给每种市场状态的这三种对策分别分配一个概率值.企业根据这种概率值来选择对策。一旦选用的对策原创 2017-09-28 17:54:00 · 3578 阅读 · 0 评论 -
《deep learning》学习笔记(3)——概率与信息论
3.1 为什么要使用概率?概率论是用来描述不确定性的数学工具,很多机器学习算都是通过描述样本的概率相关信息或推断来构建模型;信息论最初是用来描述一个信号中包含信息的多少进行量化,在机器学习中通常利用信息论中的一些概念和结论来描述不同概率分布之间的关系。3.2 随机变量随机变量: 可以随机取不同值的变量,在机器学习算法中,每个样本的特征取值,标签值都可以看作是一个随机变量,包括离散型随机变量和连续型原创 2017-09-20 14:11:10 · 2254 阅读 · 0 评论 -
深入理解Spark ML:基于ALS矩阵分解的协同过滤算法与源码分析
http://blog.csdn.net/u011239443/article/details/51752904随着互联网的迅猛发展,为了满足人们在繁多的信息中获取自己需要内容的需求,个性化推荐应用而生。协同过滤推荐是其中运用最为成功的技术之一。其中,基于用户的最近邻法根据相似用户的评分来预测当前用户的评分。然而,在用户数量以及用户评分不足的情况下,该方法存在冷启动和数据稀疏的问题。为了解决这两个问题,业界提出了提出了基于项的最近邻法,利用项之间相似性稳定的特点可以离线计算相似性,降低了在线计算量,提高了推原创 2016-06-26 13:40:00 · 31295 阅读 · 6 评论 -
【Spark Mllib】TF-IDF&Word2Vec——文本相似度
一个比较通用的例子是使用单词的向量表示基于单词的含义计算两个单词的相似度。特征哈希通过使用哈希方程对特征赋予向量下标,这个向量下标是通过对特征的值做哈希得到的(通常是整数)。使用的哈希方程必须是一致的(就是说,对于一个给定的输入,每次返回相同的输出)。的含义是:在一个文档中出现次数很多的词相比出现次数少的词应该在词向量表示中得到更高的权值。最后的结果就是,稀有的或者重要的词被给予了更高的权值,而更加常用的单词(被认为比较不重要)则在考虑权重的时候有较小的影响。对于我们的任务来说,可以使用。原创 2016-06-21 16:59:02 · 27588 阅读 · 1 评论 -
傅里叶变换
作 者:韩 昊 知 乎:Heinrich 微 博:@花生油工人 知乎专栏:与时间无关的故事谨以此文献给大连海事大学的吴楠老师,柳晓鸣老师,王新年老师以及张晶泊老师。转载的同学请保留上面这句话,谢谢。如果还能保留文章来源就更感激不尽了。——更新于2014.6.6,想直接看更新的同学可以直接跳到第四章———— ...转载 2018-04-08 17:50:02 · 257 阅读 · 0 评论 -
轻量级文本搜索引擎的后台设计、实现与优化
转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/51655480主框架图见:http://r.photo.store.qq.com/psb?/V12VvuOZ2vxbmG/M2gzPWfnBLS8buBT*16Y2xm9QkAAp8TmePOlIPC1MlM!/r/dFMAAAAAAAAA 1.1 生成库——词频库、词语索...原创 2016-06-13 10:05:56 · 5407 阅读 · 0 评论 -
对抗机器学习模型
之前讲的都是白盒攻击,即模型的网络结构我们都是知道的。很神奇的是,我们只要用相同的数据训练某个自定义结构的Proxy模型,在该Proxy模型上做attack,Black模型也能被很好的attack了。机器学习模型很可以会遭到恶意攻击,比较直接就能想到的如:人脸识别模型的攻击。训练出具有对抗性的机器学习模型,在业务系统存在着越来越重要的实际意义。FGSM(fast gradient sign method) 是一种非常快捷的attack方法:只进行一次求梯度,并取其各个位上的符号作为结果。原创 2019-05-04 14:28:50 · 5815 阅读 · 1 评论 -
如何用人机协同提高客服效率?阿里巴巴客服助手诞生了
去年参与的项目 : https://mp.weixin.qq.com/s/JG_Ajl4uO4kIS7cyUXqztw原创 2019-03-27 21:35:02 · 711 阅读 · 0 评论 -
基于神经网络的文本特征提取——从词汇特征表示到文本向量
理解了基础的神经元模型,神经网络就很好理解了。神经元就像一块乐高积木,而神经网络就是搭的积木。如上图,xxx那一列,我们称为输入层,输出y\hat{y}y那列称为输出层,中间那列称为隐藏层。隐藏层可以有多个,而且每个隐藏层有多少个神经元也都是可以自主调整的。经典的神经网络中,当前层的神经元会后后一层的各个神经元进行连接,这也称为全连接。原创 2018-07-03 14:52:17 · 18778 阅读 · 1 评论 -
AI产品能力
https://time.geekbang.org/column/article/382一、分析产品的能力人工智能工程师和数据科学家的主要工作是什么?很多人认为,他们的主要工作是利用复杂的机器学习模型和算法来解决产品中的难题。这样的认识既“对”也“不对”。“对”的地方是说,机器学习模型和算法的确是人工智能技术在产品上落地的核心步骤。“不对”的地方是说,这种认识往往片面地总结了人工智能从...转载 2018-06-01 15:50:24 · 1986 阅读 · 0 评论 -
论文阅读:《Ad Click Prediction: a View from the Trenches》
https://time.geekbang.org/column/article/370广告是很多互联网公司的重要收入来源,比如 Google、Facebook、微软、阿里巴巴、百度、腾讯等。以 Facebook 为例,它的 2017 年第一季度财报显示,公司总营收为 78.4 亿美元,这其中 98% 的收入来自广告。同样,在这些公司内部,都有着完善的广告系统来支撑其广告业务。当然,大型广...转载 2018-05-31 19:00:08 · 2954 阅读 · 0 评论 -
《deep learning》学习笔记(1)——引言
http://blog.csdn.net/u011239443/article/details/77890949 人工智能(artificialintelligence, AI)已经成为一个具有众多实际应用和活跃研究课题的领域,并且正在蓬勃发展。层次化的概念让计算机构建较简单的概念来学习复杂概念。如果绘制出这些概念如何建立在彼此之上的图,我们将得到一张 ‘‘深’’(层次很多)的图。基于这个原因,我原创 2017-09-08 09:24:23 · 1032 阅读 · 0 评论 -
《deep learning》学习笔记(2)——线性代数
2.1 标量、向量、矩阵和张量 在numpy中,可以用以下方式生成各种维度的张量:>>> import numpy as np## 生成元素全为0的二维张量,两个维度分别为3,4>>> np.zeros((3,4))array([[ 0., 0., 0., 0.], [ 0., 0., 0., 0.], [ 0., 0., 0., 0.]])#原创 2017-09-12 10:48:58 · 897 阅读 · 0 评论 -
《机器学习实战(Scala实现)》(四)——朴素贝叶斯
原理关于算法原理可以参阅:http://blog.csdn.net/u011239443/article/details/53735609#t35构建词向量pythondef loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['ma原创 2017-03-29 12:55:47 · 2158 阅读 · 1 评论 -
《机器学习实战(Scala实现)》(二)——k-邻近算法
算法流程1.计算中的set中每一个点与Xt的距离。 2.按距离增序排。 3.选择距离最小的前k个点。 4.确定前k个点所在的label的出现频率。 5.返回频率最高的label作为测试的结果。实现python# -*- coding: utf-8 -*- '''Created on 2017年3月18日@author: soso'''from numpy import *impo原创 2017-03-18 14:41:08 · 6372 阅读 · 0 评论 -
【Spark Mllib】逻辑回归——垃圾邮件分类器与maven构建独立项目
使用SGD算法逻辑回归的垃圾邮件分类器 1 package com.oreilly.learningsparkexamples.scala 2 3 import org.apache.spark.{SparkConf, SparkContext} 4 import org.apache.spark.mllib.classification.LogisticRegressi原创 2016-06-13 10:05:34 · 4147 阅读 · 0 评论 -
【Spark Mllib】决策树,随机森林——预测森林植被类型
决策树有训练分类模型的函数trainClassifier和回归模型的函数trainRegressor,这里我们使用trainClassifier。随机森林可以理解将数据集合分成n个子集,然后在每个子集上建立决策树,最后结果是n棵决策树的平均值。因为一共有7种类别,所以生成的是7*7的矩阵,aij 表示实际类别是i,而被预测类别是j的次数。我们可以将featureSubsetStrategy设置为auto,让算法自己来决定。相当于关于impurity,depth,bins的三层循环。但是,我们可以参阅下。原创 2016-07-08 11:09:33 · 7965 阅读 · 0 评论 -
【Spark Mllib】K-均值聚类——电影类型
经过损失函数的评估,将性能最好的一次训练选定为最终的模型。试图将一系列样本分割成K个不同的类簇(其中K是模型的输入参数),其形式化的目标函数称为类簇内的方差和(within cluster sum of squared errors,WCSS)。但是,也有证据表明聚类过程会提取电影之间的属性或者相似之处,这不是单纯基于电影名称和题材容易看出来的(比如外语片的类簇和传统电影的类簇,等等)。内部评价指标WCSS(我们之前提过的K-元件的目标函数),是使类簇内部的样本距离尽可能接近,不同类簇的样本相对较远。原创 2016-06-18 23:29:26 · 7961 阅读 · 1 评论 -
【Spark Mllib】分类模型——各分类模型使用
数据集:线性模型原创 2016-06-16 13:37:30 · 5181 阅读 · 0 评论 -
提高机器学习模型准确率的八大方法
想要提高模型的性能有时会是一件难度不小的事情。如果你也遇到过类似的情况,相信一定会认同我这一看法。在一一尝试毕生所学的对策和算法之后,依然没能够提高模型的准确率,这时,一种陷入困境的无助感就会涌上心头。事实上,百分之九十的数据科学家就是在这一阶段选择了放弃。但是,好戏这才开始!正是这一点划清了平凡的数据科学家与非凡的数据科学家的界限。你是不是也梦想着成为一名卓越的数据科学家呢?如果是的话,你就需要有转载 2016-11-28 15:25:43 · 16523 阅读 · 0 评论 -
《机器学习实战(Scala实现)》(五)——Logistic回归
原理逻辑回归的一种二分类。我们先来看下以下公式:z=w0x0+w1x1+...+wnxn\large z = w_0x_0 + w_1x_1 + ... + w_nx_nz是Sigmoid函数的输入:σ(z)=11+e−z\large \sigma(z) = \frac{1}{1+e^{-z}}我们可以看出上式子,当z = 0时,σ(z)=0.5\sigma(z) = 0.5;当z不断的减小时,σ(原创 2017-04-01 20:12:35 · 3333 阅读 · 0 评论 -
采用深度学习算法为Spotify做基于内容的音乐推荐
http://www.csdn.net/article/2015-02-10/2823907摘要:本文概述了作者在Spotify的机器学习实践经验,解释了使用卷积神经网络(CNN)做基于音频的音乐推荐的方法,并提出了有关该卷积网络的实际学习效果的心得。采用了GTX 780Ti GPU,Theano软件框架,小批量梯度下降法。转载 2017-06-11 15:30:34 · 3539 阅读 · 0 评论 -
深入理解Spark ML:多项式朴素贝叶斯原理与源码分析
http://blog.csdn.net/u011239443/article/details/76176743朴素贝叶斯的基本原理与简单的python与scala的实现可以参阅:http://blog.csdn.net/u011239443/article/details/68061124如果一个给定的类和特征值在训练集中没有一起出现过,那么基于频率的估计下该概率将为0。这将是一个问题。因为与其他概率相乘时将会把其他概率的信息统统去除。所以常常要求要对每个小类样本的概率估计进行修正,以保证不会出现有为0的原创 2017-07-27 12:27:54 · 4985 阅读 · 1 评论 -
《机器学习技法》学习笔记03——核SVM
http://blog.csdn.net/u011239443/article/details/76598872核技巧接着上篇博文的问题:我们先假定:则有: 于是我们就得到了核函数:那么我们就可以直接用核函数带入到原来的问题中,我们能计算出b:讲核函数代入gSVM=sign(∑SVindicesnwTzs+b)g_{SVM}=sign(\sum_{SV indices n}w^Tz_s+b)得:多原创 2017-08-02 21:35:41 · 955 阅读 · 0 评论 -
《机器学习技法》学习笔记02——对偶SVM
对偶SVM的目标如果是非线性SVM,那么问题变成了:zn是xn在d+1z_n是x_n在d+1高维空间映射所得到的值,于是就出现了困境:对偶SVM的目标就是:我们由拉格朗日乘子法得:因为yn(wTzn+b)>=1y_n(w^Tz_n+b)>=1 所以1−yn(wTzn+b)<=01-y_n(w^Tz_n+b)<=0 为了让符号不变,我们规定αn>=0α_n >=0 , 则αn(1−yn(wTzn原创 2017-08-02 12:26:56 · 866 阅读 · 0 评论 -
为什么对高斯分布的方差的极大似然估计是有偏的?
http://blog.csdn.net/qykshr/article/details/23273105本文要证明为什么对高斯分布的方差的极大似然估计是有偏的。同时,也说明为什么求样本方差时,分母是N-1而不是N。首先,明白两点,(1)极大似然法得到的高斯方差是什么形式(2)什么是有偏。(1)先说第一个问题,用极大似然估计得到的高斯方差是什么。假设有n个符合高斯独立同分布的观测值,我们要根据这转载 2017-08-15 19:09:05 · 8097 阅读 · 1 评论 -
《机器学习技法》学习笔记15——矩阵分解
http://blog.csdn.net/u011239443/article/details/76735871线性网络模型Netflix在2006年给出了一个数据集 (用户id,电影id,电影评分) 让我们来预测用户未评分的电影评分分数。 我们可以讲用户id进行二分向量编码,然后同意用户的电影评分组成一个向量,即得到:因为向量x只有一个值为1,所以模型可以变成:而对于某一个电影的预测评分可以原创 2017-08-05 21:22:32 · 2636 阅读 · 0 评论