用户画像原理、技术选型及架构实现 这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子,侵删)一、什么是用户画像用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。...
【机器学习】特征选择常用方法 整理 特征选择在实际工程中,对于特征变量的选取,往往是基于业务经验,也就是所谓你的先验知识。现在数据的特征维度很多,而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分类)。特征选择的好处:便于理解和可视化数据,降低计算及存储压力,对抗维度灾难以提高模型预测准确率等等。特征选择的三类主流方法为:过滤式、包裹式、嵌入式。一、过滤式变量排序就是一种典型的过滤式方法,...
今日头条推荐算法原理 - 梳理 PS:腾讯新闻和今日头条,我每天都会对比着用,喜欢腾讯新闻的细致和头条的粗暴。算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条的推荐算法,从 2012 年 9 月第一版开发运行至今,已经经过四次大的调整和修改。今日头条资深算法架构师曹欢欢博士,公开今日头条的算法原理,以推动整个行业问诊算法、建言算法;通过...
【机器学习】XGBoost 原理及调参指南 整理 XGBoostXGBoost能自动利用cpu的多线程,而且适当改进了gradient boosting,加了剪枝,控制了模型的复杂程度 传统GBDT以CART作为基分类器,特指梯度提升决策树算法,而XGBoost还支持线性分类器(gblinear),这个时候XGBoost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。 传统GBDT在优化时只用到一...
【机器学习】组合算法 Bootstraping, Bagging, Boosting, AdaBoost, RandomForest, Gradient boosting 组合模型Bootstraping名字来自成语“pull up by your own bootstraps”,意思就是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:采用重抽样技术从原始样本中抽取一定数量(自定义)的样本,此过程允许重复抽样。根据抽出的样本计算给定的统计量T。重复...
【机器学习】因子分解机FM、场感知因子分解机FFM 算法 整理 逻辑回归无法学习到特征间的组合关系,因此有了 因子分解机FM 和 场感知因子分解机FFM。接下来,介绍下场感知因子分解机的主要应用。FFM模型可以自动做特征组合和处理高维稀疏特征,因而它在处理大量离散特征问题上往往有比较好的效果。但要注意对连续特征做归一化或者离散化。因子分解机FM1.FM背景在计算广告中,CTR预估(click-through rate)是非常重要的一个环节,因为...
【机器学习】 K近邻(kNN)算法 整理 k-近邻(kNN,k-Nearest Neighbors)算法是一种基于实例的分类方法。该方法就是找出与未知样本x距离最近的k个训练样本,看这k个样本中多数属于哪一类,就把x归为那一类。k-近邻方法是一种懒惰学习方法,它存放样本,直到需要分类时才进行分类,如果样本集比较复杂,可能会导致很大的计算开销,因此无法应用到实时性很强的场合。一 . K-近邻算法(KNN)概述 最简单最初级的...
【机器学习】蒙特卡罗算法 整理 蒙特·卡罗方法(Monte Carlo method),也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。与它对应的是确定性算法。蒙特·卡罗方法在金融工程学,宏观经济学,计算物理学(如粒子输运计算、量子热力学计算、空气动力学计算)...
ALS推荐算法 在完成基于大数据平台的图书馆推荐系统后,最近把学习的中心放在机器学习上面。在接下来的几个月中,希望自己能弄明白常见机器学习算法的原理,并且能在spark平台上进行实践。在我的机器学习学习和实践之路的一个本书是《Spark机器学习》,这本书虽然比较旧,但是写的还是比较好。书里讲了各种常见的机器学习算法,并且在spark平台上进行了实战。在学习到此书第四章--构建基于spark的推荐系统引擎时觉得...
Java 多线程 并发编程 整理 一、多线程1、操作系统有两个容易混淆的概念,进程和线程。进程:一个计算机程序的运行实例,包含了需要执行的指令;有自己的独立地址空间,包含程序内容和数据;不同进程的地址空间是互相隔离的;进程拥有各种资源和状态信息,包括打开的文件、子进程和信号处理。线程:表示程序的执行流程,是CPU调度执行的基本单位;线程有自己的程序计数器、寄存器、堆栈和帧。同一进程中的线程共用相同的地址空间,同时共享进...
Breeze库API总结(Spark线性代数库) Spark Mllib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同时也提供了Vector和Linalg等的实现。在使用Breeze库时,需要导入相关包:Import breeze.linalg._Import breeze.numeric._Breeze创建函数: 操作...
【机器学习】Apriori算法详解 整理 1、数据挖掘与机器学习有时候,人们会对机器学习与数据挖掘这两个名词感到困惑。如果你翻开一本冠以机器学习之名的教科书,再同时翻开一本名叫数据挖掘的教材,你会发现二者之间有相当多重合的内容。比如机器学习中也会讲到决策树和支持向量机,而数据挖掘的书里也必然要在决策树和支持向量机上花费相当的篇幅。可见二者确有相当大的重合面,但如果细研究起来,二者也的确是各自不同的领域。大体上看,数据挖掘可以视为数据...
【机器学习】Boost算法(GDBT,AdaBoost,XGBoost)整理 Bagging的原理是从现有数据中有放回抽取若干个样本构建分类器,重复若干次建立若干个分类器进行投票。它的典型应用,就是随机森林。现在讨论另一种算法:提升(Boost)。简单地来说,提升就是指每一步我都产生一个弱预测模型,然后加权累加到总模型中,然后每一步弱预测模型生成的的依据都是损失函数的负梯度方向,这样若干步以后就可以达到逼近损失函数局部最小值的目标。下面开始要不说人话了,我们来详...
【机器学习】时序预测Arima & HoltWinters算法及评估方法 整理 时序预测(Arima 和 HoltWinters)算法 及 评估方法 整理。spark 库里没有 Spark TimeSeries 时序预测算法,但是国外有人已经写好了相应的算法。https://github.com/sryza/spark-timeseries时间序列分析时间序列,就是按时间顺序排列的,随时间变化的数据序列。生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量...
横截面数据、时间序列数据、面板数据 面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。实际上如果从数据结构内在含义上,应该把Panel Data称为“时间序列-截面...
【机器学习】神经网络NeuralNetwork 算法 整理 人工神经网络(Artificial Neural Networks,ANN)是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中,大量的节点(或称”神经元”,或”单元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。...
深入理解分布式事务,高并发下分布式事务的解决方案 1、什么是分布式事务分布式事务就是指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分别位于不同的分布式系统的不同节点之上。以上是百度百科的解释,简单的说,就是一次大的操作由不同的小操作组成,这些小的操作分布在不同的服务器上,且属于不同的应用,分布式事务需要保证这些小操作要么全部成功,要么全部失败。本质上来说,分布式事务就是为了保证不同数据库的数据一致性。2、分布式事务的产生的原因...
简易版用户画像,你需要掌握这3个数据处理方法 衡量用户价值主要有两大维度:忠诚度和消费能力。本文从这两方面进行了简易的用户画像,以此做出用户分析,并告诉大家具体的数据处理方法。一、背景:某电商,已上线并稳定运营了一段时间,积累了一些用户数据。产品及运营想要了解平台用户的价值类型,以便针对性的采取不同运营策略。(以下方法同样适用于广告、SNS等领域,或用以确认内容价值)二、目的:确认用户价值类型,...
【机器学习】最大熵算法 整理 最大熵模型由最大熵原理推导实现1.最大熵原理 最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。假设离散随机变量X的概率分布式P(X),则其熵是:熵满足下列不等式:式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成...