机器学习
机器学习框架
赶路人儿
一个十年以上编程人员,擅长使用java、python、C++等语言,具有广告投放、个性化推荐引擎等超大规模系统开发经验。
展开
-
在线上服务中使用 Spark MLlib
推荐系统的在线(Online)计算和离线(Offline)计算根据计算环境的不同,推荐系统的预测大体上可以分为在线(Online)、离线(Offline)两种。在线计算,指的是在线上的推荐服务中,对接受到的请求,进行实时计算,生成推荐结果并直接返回给请求方。离线计算,是指以一定时间周期运行的,对数据库中的大批量数据进行的计算。离线计算的结果通常会写入数据库中,供后续任务读取。除此之外,还有介于...转载 2019-11-13 21:02:53 · 1159 阅读 · 0 评论 -
tensorflow机器学习模型的跨平台上线(java-api)
在用PMML实现机器学习模型的跨平台上线中,我们讨论了使用PMML文件来实现跨平台模型上线的方法,这个方法当然也适用于tensorflow生成的模型,但是由于tensorflow模型往往较大,使用无法优化的PMML文件大多数时候很笨拙,因此本文我们专门讨论下tensorflow机器学习模型的跨平台上线的方法。1.tensorflow模型的跨平台上线的备选方案 tensorflow模...转载 2019-11-13 17:29:15 · 501 阅读 · 0 评论 -
用PMML实现机器学习模型的跨平台上线
在机器学习用于产品的时候,我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型,但是有时候其他的产品和项目想把这个模型集成进去,但是这些产品很多只支持某些特定的生产环境比如Java,为了上一个机器学习模型去大动干戈修改环境配置很不划算,此时我们就可以考虑用预测模型标记语言(Predictive Model Markup Language,以下简称PMML)来实现...转载 2019-11-13 16:25:48 · 496 阅读 · 0 评论 -
TensorFlow中张量(tensor)的理解
TensorFlow字面意思——张量的流动,即保持计算节点不变让数据以张量的形式进行流动。张量tensor可以是一个变量/数组/多维数组等,可以想象成一个n维(n-dimensional)的数组、序列或列表。tensor有三个属性:数据类型、维度(阶/rank)、shape。Data type/数据类型你可以为一个张量指定下列数据类型中的任意一个类型: 数据类型 ...原创 2019-09-16 22:50:13 · 2963 阅读 · 0 评论 -
深度学习在美团搜索广告排序的应用实践
一、前言在计算广告场景中,需要平衡和优化三个参与方——用户、广告主、平台的关键指标,而预估点击率CTR(Click-through Rate)和转化率CVR(Conversion Rate)是其中非常重要的一环,准确地预估CTR和CVR对于提高流量变现效率,提升广告主ROI(Return on Investment),保证用户体验等都有重要的指导作用。传统的CTR/CVR预估,典型的机器学...转载 2019-09-16 20:58:49 · 451 阅读 · 0 评论 -
基于TensorFlow Serving的深度学习在线预估
一、前言随着深度学习在图像、语言、广告点击率预估等各个领域不断发展,很多团队开始探索深度学习技术在业务层面的实践与应用。而在广告CTR预估方面,新模型也是层出不穷: Wide and Deep[^1]、DeepCross Network[^2]、DeepFM[^3]、xDeepFM[^4],美团很多篇深度学习博客也做了详细的介绍。但是,当离线模型需要上线时,就会遇见各种新的问题: 离线模型性能...转载 2019-09-16 20:37:07 · 571 阅读 · 0 评论 -
样本中心化、标准化
在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化(Standardization或Normalization)处理。目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。计算过程由下式表示:下面解释一下为什么需要使用这些数据预处理步骤。先看一个标准化例子...转载 2019-07-14 12:40:16 · 6860 阅读 · 0 评论 -
推荐去中心化
个性化推荐系统简单来说是一个将user和item进行匹配的一个系统。个性化推荐系统主要包括召回、排序两个典型模块:召回是指根据用户信息和历史行为,从内容池中获取与之相匹配的部分内容(item);排序是指根据用户、内容的特征,通过模型预估出内容的点击率情况。一般来说,个性化推荐系统的召回主要有:标签召回(用户、内容打标签)、协同召回、热度召回(根据行为计算出来的内容)等,排序模型主要有lr、fm...原创 2019-07-14 12:16:22 · 2761 阅读 · 0 评论 -
python常用机器学习框架清单
随着人工智能技术的发展与普及,Python超越了许多其他编程语言,成为了机器学习领域中最热门最常用的编程语言之一。有许多原因致使Python在众多开发者中如此受追捧,其中:有大量的机器学习相关库和工具; python天生为效率而生,语法简单、上手容易,只需少量代码可实现复杂功能;1、Numpy:Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,特别是数组接口。很多框架都...原创 2019-04-07 15:29:43 · 5495 阅读 · 2 评论 -
条件概率、全概率以及贝叶斯推到过程
1、条件概率公式1)定义:设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P(A|B)=P(AB)/P(B)2)乘法公式 A、独立事件的概率乘法公式大家比较熟悉,若事件A与B相互独立,则A与B同时发生的概率:P(A|B)=P(A)P(B) B、由条件概率公式得:...转载 2019-04-05 20:23:33 · 1955 阅读 · 0 评论 -
向量点乘(内积)和叉乘(外积)
向量是由n个实数组成的一个n行1列(n*1)或一个1行n列(1*n)的有序数组。1、向量点乘(内积)向量的点乘,也叫内积,是对两个向量对应位一一相乘之后求和的操作,点乘的结果是一个标量。1)计算公式:2)几何意义:表征或计算两个向量之间的夹角 b向量在a向量方向上的投影2、向量差乘两个向量的叉乘,又叫外积、叉积,叉乘的运算结果是一个向量而不是一个标量。并且两...原创 2019-03-09 14:13:47 · 56117 阅读 · 0 评论 -
协同过滤(cf)——usr-item和item-item介绍
一、概述: 协同过滤(Collaborative Filtering)是利用集体智慧的一个典型方法。要理解什么是协同过滤 ,首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。协同过滤作为推荐算法中最经典的类型,其模型...原创 2019-03-08 20:03:01 · 2667 阅读 · 0 评论 -
海量数据去重之SimHash算法简介和应用
SimHash是什么SimHash是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling 》中提到的一种指纹生成算法或者叫指纹提取算法,被Google广泛应用在亿级的网页去重的Job中,作为locality sensitive hash(局部敏感哈希)的一种,其主要思想是降维,什么是降维? 举个通俗点的例子,一篇若干数量的文本...转载 2018-11-13 18:30:21 · 1069 阅读 · 0 评论 -
PCA数学原理
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成转载 2017-11-13 11:15:32 · 395 阅读 · 0 评论