自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (5)
  • 收藏
  • 关注

原创 hive编程笔记---多表关联使用感想

背景:hadoop平台上通过hive整理模型预测数据,需要将多个表(行为表,大概20+张,以下简称“子表”)与注册信息表(简称“主表”)进行关联,需要每天凌晨5点前输出预测数据。关联不同方式可能影响最终建模数据表生成时间。整理过程中,主要经过了如下步骤。感想: 使用left outer join 进行关联时,left的表越多,则运算需要的时间越多。所以尽可能将需要left的表进行合并。使得left

2017-07-20 12:26:26 696

原创 机器学习----xgboost学习笔记

1、利用xgboost做特征组合 1)XGBModel.apply(self, X, ntree_limit=0) return the predicted leaf every tree for each sample X: 训练集特征,features matrix ntree_limit: 预测时数的个数, Limit

2017-07-13 19:56:45 668

转载 Boosting和Bagging

原文:http://www.cnblogs.com/bentuwuying/p/6659479.html集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。集成学习通过将多个学习器进行结合,常可以获得比单一学习器显著优越的泛化性能。这对“弱学习器”尤为明显,因此集成学习的很多理论研究都是针对弱学习器进行的。要获得好的集成,个体学习器应该“好而不同”,即个体学习器要

2017-07-05 20:15:14 513

转载 GBDT理论知识总结

原文:http://www.cnblogs.com/bentuwuying/p/6667267.html一. GBDT的经典paper:《Greedy Function Approximation:A Gradient Boosting Machine》AbstractFunction approximation是从function space方面进行numerical optimizatio

2017-07-05 20:14:05 815

转载 Learning to Rank简介

原文:http://www.cnblogs.com/bentuwuying/p/6681943.htmlLearning to Rank是采用机器学习算法,通过训练模型来解决排序问题,在Information Retrieval,Natural Language Processing,Data Mining等领域有着很多应用。 1. 排序问题如图 Fig.1 所示,在信息检索中,给定一个que

2017-07-05 20:12:16 667

转载 Learning to Rank算法介绍:RankSVM 和 IR SVM

原文:http://www.cnblogs.com/bentuwuying/p/6683832.html之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to Rank的几类常用的方法:pointwise,pairwise,listwise。这篇博客就很多公司

2017-07-05 20:11:31 2309

转载 Learning to Rank算法介绍:GBRank

原文:http://www.cnblogs.com/bentuwuying/p/6684585.html之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to Rank的几类常用的方法:pointwise,pairwise,listwise。前面已经介绍了pa

2017-07-05 20:10:24 1033

转载 Learning to Rank算法介绍:RankNet,LambdaRank,LambdaMart

原文:http://www.cnblogs.com/bentuwuying/p/6690836.html之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to Rank的几类常用的方法:pointwise,pairwise,listwise。前面已经介绍了pa

2017-07-05 20:09:01 5679

转载 梯度提升树GBDT原理

原文:http://blog.csdn.net/a819825294/article/details/51188740 1.模型提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉决策树。提升树模型可以表示为决策树的加法模型: 其中,表示决策树;为决策树的

2017-07-04 20:03:54 442

转载 CSDN文章如何转载

打开转文章, 按F12,源码中寻找元素:article_content。 将对应标签copy–>outtoHTML, 然后打开自己的博客,复制,粘贴。

2017-07-04 18:36:16 240

转载 搜狐基于Spark的新闻和广告推荐实战

原文:http://www.csdn.NET/article/1970-01-01/2825353摘要:对一个媒体网站来讲,一个比较重要的任务就是获取用户对于不同类型文章的兴趣分布。用户的兴趣分布会被作为用户属性标签,和其他类型的标签(例如人口属性等)一起用作推荐的模型特征。李滔,中国科技大学博士毕业,现供职于搜狐大数据中心用户推荐部,从事推荐和广告算法研发工作。主要关注技术方向包括广告技术、并

2017-07-04 18:34:07 765

转载 美团推荐算法实践

来源:http://tech.meituan.com/mt-recommend-practice.html前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解

2017-07-04 18:33:15 478

转载 基于机器学习方法的POI品类推荐算法

来源:http://tech.meituan.com/category-recommend-base-ml.html前言在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、电话、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的POI数据。例如,

2017-07-04 18:32:30 1435

转载 推荐算法之工具包

原文:http://blog.csdn.net/dengxing1234/article/details/728972351、SVDFeature   主页:http://svdfeature.apexlab.org/wiki/Main_Page  开发语言:C++   2、LibMF   主页:http://www.csie.ntu.edu.tw/~cjlin/libmf/  开发语言:C+

2017-07-04 18:31:42 732

转载 推荐系统学习-SVDFeature

介绍  SVDFeature是由Apex Data & Knowledge Management Lab在KDD CUP11竞赛中开发出来的工具包。它的目的是有效地解决基于特征的矩阵分解。新的模型可以只通过定义新的特征来实现。这种基于特征的设置允许我们把很多信息包含在模型中,使得模型更加与时俱进。使用此工具包,可以很容易的把其他信息整合进模型,比如时间动态,领域关系和分层信息。除了评分预测,还可以

2017-07-04 18:29:40 1168

转载 推荐系统学习-LibMF

介绍  LibMF的作者是大名鼎鼎的台湾国立大学,他们在机器学习领域享有盛名,近年连续多届KDD Cup竞赛上均获得优异成绩,并曾连续多年获得冠军。业界常用的LibSVM, Liblinear等都是他们开发的,开源代码的效率和质量都非常高。  LibMF是在潜在空间使用两个矩阵,接近一个不完全矩阵。(原句是:LIBMF is an open source tool for approximati

2017-07-04 18:28:40 427

转载 推荐系统学习-libFM

介绍  分解机(FM)是一个通过特征工程模拟大多数分解模型的通用方法。libFM是一个实现以随机梯度下降stochastic gradient descent (SGD)和可选择最小二乘alternating least squares (ALS) optimization以及使用蒙特卡洛的贝叶斯推理Bayesian inference using Markov Chain Monte Carlo

2017-07-04 18:27:33 1035

转载 解读阿里精准推广的核心算法

原文:http://www.sohu.com/a/146522397_463994阿里妈妈,是一个想让天下没有难做的营销的大数据平台,它拥有阿里巴巴集团的核心商业数据。在这里,每天有超过50亿的推广流量完成超过3亿件商品的推广展现,覆盖高达98%的网民,实现数字媒体(PC端+无线端+互联网电视端)的一站式触达。在这些鲜亮的数据背后,是什么样的核心算法在起作用?它如何保证商家的产品得到最有效的推荐?

2017-07-04 18:25:50 794

转载 在线学习算法FTRL详解

原文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html  现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-regulariz

2017-07-04 18:23:27 1879

转载 广告点击率预估中的特征选择

原文:http://blog.csdn.net/dengxing1234/article/details/73499123互联网广告综述之点击率特征工程一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本

2017-07-04 18:21:14 428

转载 CTR预估中GBDT与LR融合方案

1、背景CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间 [2],映射后的函数值就是CTR的预估值。LR,逻辑回归模型,这种线性模型

2017-07-04 18:19:21 355

转载 Bandit算法与推荐系统

推荐系统里面有两个经典问题:EE和冷启动。前者涉及到平衡准确和多样,后者涉及到产品算法运营等一系列。Bandit算法是一种简单的在线学习算法,常常用于尝试解决这两个问题,本文为你介绍基础的Bandit算法及一系列升级版,以及对推荐系统这两个经典问题的思考。什么是Bandit算法为选择而生我们会遇到很多选择的场景。上哪个大学,学什么专业,去哪家公司,中午吃什么等等。这些事情,都让选择困难症的我们头很大

2017-07-04 18:14:25 685

原创 python笔记--List合并方法

两个list合并为一个list主要方法如下:“+”合并 L1 = [1, 2, 3, 4, 5] L2 = [20, 30, 40] L3=L1+L2 L3 Out[277]: [1, 2, 3, 4, 5, 20, 30, 40]“extend”合并: 在原有的基础上添加 L1 = [1, 2, 3, 4, 5] L2 = [20, 30

2017-07-04 11:03:18 528

抖音推荐系统信息架构

斗音推荐系统架构 png

2019-04-03

VC Runtime

c++程序运行环境, lightgbm通过pip安装时使用

2017-08-22

Practical Lessons from Predicting Clicks on Ads at Facebook

facebook 广告点击率计算技术文档

2017-07-25

word2vec源码包--C语言

word2Vec 自然语言处理,生成词向量

2016-06-12

Mysql_DBA要

具体的描述了DBA职务和职位要求,帮助从事DBA的新人学习。

2011-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除