2017年07月_Catherine_In_Data

12月 10月 09月 08月 07月 06月 05月 03月 01月

原创 hive编程笔记---多表关联使用感想

背景：hadoop平台上通过hive整理模型预测数据，需要将多个表（行为表，大概20+张，以下简称“子表”）与注册信息表（简称“主表”）进行关联，需要每天凌晨5点前输出预测数据。关联不同方式可能影响最终建模数据表生成时间。整理过程中，主要经过了如下步骤。感想：使用left outer join 进行关联时，left的表越多，则运算需要的时间越多。所以尽可能将需要left的表进行合并。使得left

2017-07-20 12:26:26 696

原创机器学习----xgboost学习笔记

1、利用xgboost做特征组合 1）XGBModel.apply(self, X, ntree_limit=0) return the predicted leaf every tree for each sample X: 训练集特征，features matrix ntree_limit: 预测时数的个数， Limit

2017-07-13 19:56:45 668

原文：http://www.cnblogs.com/bentuwuying/p/6659479.html集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务。集成学习通过将多个学习器进行结合，常可以获得比单一学习器显著优越的泛化性能。这对“弱学习器”尤为明显，因此集成学习的很多理论研究都是针对弱学习器进行的。要获得好的集成，个体学习器应该“好而不同”，即个体学习器要

2017-07-05 20:15:14 513

转载 GBDT理论知识总结

原文：http://www.cnblogs.com/bentuwuying/p/6667267.html一. GBDT的经典paper：《Greedy Function Approximation：A Gradient Boosting Machine》AbstractFunction approximation是从function space方面进行numerical optimizatio

2017-07-05 20:14:05 815

转载 Learning to Rank简介

原文：http://www.cnblogs.com/bentuwuying/p/6681943.htmlLearning to Rank是采用机器学习算法，通过训练模型来解决排序问题，在Information Retrieval，Natural Language Processing，Data Mining等领域有着很多应用。 1. 排序问题如图 Fig.1 所示，在信息检索中，给定一个que

2017-07-05 20:12:16 667

转载 Learning to Rank算法介绍：RankSVM 和 IR SVM

原文：http://www.cnblogs.com/bentuwuying/p/6683832.html之前的博客：http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理，也讲到了Learning to Rank的几类常用的方法：pointwise，pairwise，listwise。这篇博客就很多公司

2017-07-05 20:11:31 2309

转载 Learning to Rank算法介绍：GBRank

原文：http://www.cnblogs.com/bentuwuying/p/6684585.html之前的博客：http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理，也讲到了Learning to Rank的几类常用的方法：pointwise，pairwise，listwise。前面已经介绍了pa

2017-07-05 20:10:24 1033

转载 Learning to Rank算法介绍：RankNet，LambdaRank，LambdaMart

原文：http://www.cnblogs.com/bentuwuying/p/6690836.html之前的博客：http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理，也讲到了Learning to Rank的几类常用的方法：pointwise，pairwise，listwise。前面已经介绍了pa

2017-07-05 20:09:01 5679

转载梯度提升树GBDT原理

原文：http://blog.csdn.net/a819825294/article/details/51188740 1.模型提升方法实际采用加法模型（即基函数的线性组合）与前向分布算法。以决策树为基函数的提升方法称为提升树（boosting tree)。对分类问题决策树是二叉分类树，对回归问题决策树是二叉决策树。提升树模型可以表示为决策树的加法模型：其中，表示决策树；为决策树的

2017-07-04 20:03:54 442

转载 CSDN文章如何转载

打开转文章，按F12，源码中寻找元素：article_content。将对应标签copy–>outtoHTML, 然后打开自己的博客，复制，粘贴。

2017-07-04 18:36:16 240

转载搜狐基于Spark的新闻和广告推荐实战

原文：http://www.csdn.NET/article/1970-01-01/2825353摘要：对一个媒体网站来讲，一个比较重要的任务就是获取用户对于不同类型文章的兴趣分布。用户的兴趣分布会被作为用户属性标签，和其他类型的标签（例如人口属性等）一起用作推荐的模型特征。李滔，中国科技大学博士毕业，现供职于搜狐大数据中心用户推荐部，从事推荐和广告算法研发工作。主要关注技术方向包括广告技术、并

2017-07-04 18:34:07 765

转载美团推荐算法实践

来源：http://tech.meituan.com/mt-recommend-practice.html前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息。解

2017-07-04 18:33:15 478

转载基于机器学习方法的POI品类推荐算法

来源：http://tech.meituan.com/category-recommend-base-ml.html前言在美团商家数据中心（MDC），有超过100w的已校准审核的POI数据（我们一般将商家标示为POI，POI基础信息包括：门店名称、品类、电话、地址、坐标等）。如何使用这些已校准的POI数据，挖掘出有价值的信息，本文进行了一些尝试：利用机器学习方法，自动标注缺失品类的POI数据。例如，

2017-07-04 18:32:30 1435

转载推荐算法之工具包

原文：http://blog.csdn.net/dengxing1234/article/details/728972351、SVDFeature 主页：http://svdfeature.apexlab.org/wiki/Main_Page 开发语言：C++ 2、LibMF 主页：http://www.csie.ntu.edu.tw/~cjlin/libmf/ 开发语言：C+

2017-07-04 18:31:42 732

转载推荐系统学习-SVDFeature

介绍 SVDFeature是由Apex Data & Knowledge Management Lab在KDD CUP11竞赛中开发出来的工具包。它的目的是有效地解决基于特征的矩阵分解。新的模型可以只通过定义新的特征来实现。这种基于特征的设置允许我们把很多信息包含在模型中，使得模型更加与时俱进。使用此工具包，可以很容易的把其他信息整合进模型，比如时间动态，领域关系和分层信息。除了评分预测，还可以

2017-07-04 18:29:40 1168

转载推荐系统学习-LibMF

介绍 LibMF的作者是大名鼎鼎的台湾国立大学，他们在机器学习领域享有盛名，近年连续多届KDD Cup竞赛上均获得优异成绩，并曾连续多年获得冠军。业界常用的LibSVM， Liblinear等都是他们开发的，开源代码的效率和质量都非常高。 LibMF是在潜在空间使用两个矩阵，接近一个不完全矩阵。（原句是：LIBMF is an open source tool for approximati

2017-07-04 18:28:40 427

转载推荐系统学习-libFM

介绍分解机（FM）是一个通过特征工程模拟大多数分解模型的通用方法。libFM是一个实现以随机梯度下降stochastic gradient descent (SGD)和可选择最小二乘alternating least squares (ALS) optimization以及使用蒙特卡洛的贝叶斯推理Bayesian inference using Markov Chain Monte Carlo

2017-07-04 18:27:33 1035

转载解读阿里精准推广的核心算法

原文：http://www.sohu.com/a/146522397_463994阿里妈妈，是一个想让天下没有难做的营销的大数据平台，它拥有阿里巴巴集团的核心商业数据。在这里，每天有超过50亿的推广流量完成超过3亿件商品的推广展现，覆盖高达98%的网民，实现数字媒体（PC端+无线端+互联网电视端）的一站式触达。在这些鲜亮的数据背后，是什么样的核心算法在起作用？它如何保证商家的产品得到最有效的推荐？

2017-07-04 18:25:50 794

转载在线学习算法FTRL详解

原文链接：http://www.cnblogs.com/EE-NovRain/p/3810737.html 现在做在线学习和CTR常常会用到逻辑回归（ Logistic Regression），而传统的批量（batch）算法无法有效地处理超大规模的数据集和在线数据流，google先后三年时间（2010年-2013年）从理论研究到实际工程化实现的FTRL（Follow-the-regulariz

2017-07-04 18:23:27 1879

转载广告点击率预估中的特征选择

原文：http://blog.csdn.net/dengxing1234/article/details/73499123互联网广告综述之点击率特征工程一．互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统，可以看到，其中的logistic regression模型是比较简单而且实用的，其训练方法虽然有多种，但目标是一致的，训练结果对效果的影响是比较大，但是训练方法本

2017-07-04 18:21:14 428

转载 CTR预估中GBDT与LR融合方案

1、背景CTR预估，广告点击率（Click-Through Rate Prediction）是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR（Logistic Regression）[1]，LR是广义线性模型，与传统线性模型相比，LR使用了Logit变换将函数值映射到0~1区间 [2]，映射后的函数值就是CTR的预估值。LR，逻辑回归模型，这种线性模型

2017-07-04 18:19:21 355

转载 Bandit算法与推荐系统

推荐系统里面有两个经典问题：EE和冷启动。前者涉及到平衡准确和多样，后者涉及到产品算法运营等一系列。Bandit算法是一种简单的在线学习算法，常常用于尝试解决这两个问题，本文为你介绍基础的Bandit算法及一系列升级版，以及对推荐系统这两个经典问题的思考。什么是Bandit算法为选择而生我们会遇到很多选择的场景。上哪个大学，学什么专业，去哪家公司，中午吃什么等等。这些事情，都让选择困难症的我们头很大

2017-07-04 18:14:25 685

原创 python笔记--List合并方法

两个list合并为一个list主要方法如下：“+”合并 L1 = [1, 2, 3, 4, 5] L2 = [20, 30, 40] L3=L1+L2 L3 Out[277]: [1, 2, 3, 4, 5, 20, 30, 40]“extend”合并：在原有的基础上添加 L1 = [1, 2, 3, 4, 5] L2 = [20, 30

2017-07-04 11:03:18 528

抖音推荐系统信息架构

斗音推荐系统架构 png

2019-04-03

VC Runtime

c++程序运行环境， lightgbm通过pip安装时使用

2017-08-22

Practical Lessons from Predicting Clicks on Ads at Facebook

facebook 广告点击率计算技术文档

2017-07-25

word2vec源码包--C语言

word2Vec 自然语言处理，生成词向量

2016-06-12

Mysql_DBA要

具体的描述了DBA职务和职位要求，帮助从事DBA的新人学习。

2011-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

zhouwenyuan1015的博客