厚hou-CSDN博客

原创【美团外卖】广告算法高级研发工程师/技术专家

岗位职责： 1，广告相关算法的研究及开发工作； 2，CTR/CVR预估算法及系统的研发； 3，O2O广告模式、机制策略的探索研究； 4，Query分析及相关性的研究； 5，智能投放、运营侧算法的研究与优化；岗位要求 : 1，熟练掌握linux下面向对象编程；(熟悉Java最好) 2，熟悉机器学习、数据挖掘知识、NLP； 3，对数据敏感，有较强数据分析和解决问题能力；

2017-09-30 10:42:09 1134

转载在mac上安装Xgboost Python库

最近在mac上用到xgboost库，安装时遇到颇多大坑，网上查了很多答案几乎都是win上的问题，没遇到理想的，自己也就摸着石头把几个大坑给填了，总结一下，给后人少走点弯路。1.错误倘若直接 pip install xgboost时，会出现Command “python setup.py egg_info” failed with error code 1的错误提示，还是乖乖使用Github源

2017-11-10 15:18:23 631

原创数据&特征

在做机器学习的时候，首先面对的问题不是模型，而是样本和特征，在实际操作的过程中，我们发现，在样本和特征上花费的时间要远大于在模型上花费的时间，所以，这一节我们来总结一下样本和特征需要的事情

2017-01-23 14:57:30 913

转载【独家】互联网变现与计算广告（干货+5000字精彩问答）

本讲座选自2015年9月28日刘鹏先生在清华大数据“技术·前沿”讲座上所做的题为《互联网变现与计算广告》的演讲。刘鹏：大家好，我是老的清华人，诸位都是95后了，你们出生的时候我是95年入学。清华电子系呆了十年，04年年底博士毕业，毕业以后在MSRA（音），我去的时候开复刚调到美国去，我师从布莱克宋。我接触广告是从08年底，现在京东的副总裁张晨老师刚从美国回来建雅虎的研究院北京分院，雅虎研究院我是北京

2016-05-19 13:39:06 4305

原创 lpa标签传播算法讲解及代码实现

具体的代码如下package lpa;import java.util.Arrays;import java.util.HashMap;import java.util.Map;public class LPA { public static float sigma = 1; public static int tag_num = 2; public static vo

2015-08-11 20:56:02 15073 3

原创 spark的eclispe的集成开发环境的搭建

默认已经安装了jdk和scala 下面说一下spark的eclispe的集成开发环境的搭建 eclipse4.2 update-site.zip spark-1.0.2-bin-hadoop2.tgz 解压spark-1.0.2-bin-hadoop2.tgz，得到lib文件夹下的jar包spark-assembly-1.1.1-hadoop2.3.0.jar 下面开始进行配置打开e

2015-03-07 20:57:12 1157

原创 Android SDK Fetching URL: http://dl-ssl.google.com/.......解决方法

如果没有翻墙，在安装android sdk的时候会出现这个问题Fetching URL: http://dl-ssl.google.com/android/repository/sys-img/google_apis/sys-img.xml解决方法是修改http proxy server具体如下

2015-03-02 17:53:47 2755

原创不错的机器学习自学网站

不错的机器学习自学网站，推荐一下www.jiqixuexi.net

2015-02-03 13:02:27 1571

原创关联规则应用到图书推荐的问题

本文是观看了小象学院《大数据应用中的算法如何创造商业价值》，现在做一下梳理问题：当当网中”最佳拍档”中的关联规则算法对于解决一个实际的问题，我们看一下一般的思路流程是什么样的1. 目前的关联规则是什么的2. 问题发现和分析：现在的方法有什么问题3. 效果空间预估：理想情况下，这个问题通过某种解决方法，可以达到的效果什么4. 算法改进：基于上面的理想效果，我们如何通过

2014-12-21 15:13:22 2484

原创 hadoop用mutipleInputs实现map读取不同格式的文件

mapmap读取不同格式的文件这个问题一直就有，之前的读取方式是在map里获取文件的名称，按照名称不同分不同的方式读取，例如下面的方式

2014-12-18 12:24:53 1629

转载 MapReduce中的二次排序

MapReduce中的二次排序2013年08月18日 ⁄ hadoop, hadoop及周边, mapreduce ⁄ 暂无评论在MapReduce操作时，我们知道传递的会按照key的大小进行排序，最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上，对value也进行排序。这种需求就是二次排序。我们先看一下Mapper任务的数据处理过程吧，见下

2014-12-15 13:41:56 789

转载 Kmeans K值的确定

《大数据》中提到：给定一个合适的类簇指标，比如平均半径或直径，只要我们假设的类簇的数目等于或者高于真实的类簇的数目时，该指标上升会很缓慢，而一旦试图得到少于真实数目的类簇时，该指标会急剧上升。类簇的直径是指类簇内任意两点之间的最大距离。类簇的半径是指类簇内所有点到类簇中心距离的最大值。废话少说，上图。下图是当K的取值从2到9时，聚类效果和类簇指标的效果图：

2014-12-09 16:48:39 4291

原创 L1、L2 损失、正则

损失是衡量预测值和真实值的差异，正则是控制所求参数的量级。

2014-12-09 16:29:48 3908

转载 linux下VIRT,RES,SHR的含义

来源：http://sunxiaqw.blog.163.com/blog/static/99065438201352052339142/如题的三个字段虽说在man top下面都有解释，但感觉有些含糊，看后难以理解它们对进程资源占用的具体情况是如何的。查阅资料后，归纳一下。VIRT：1、进程“需要的”虚拟内存大小，包括进程使用的库、代码、数据等2、假如

2014-11-27 13:45:21 3876

转载 Memcache查看运行状况

MemcacheMemcache是danga.com的一个开源项目，它是一个高性能的分布式的内存对象缓存系统，通过在内存里维护一个统一的巨大的Hash表，能够用来存储各种格式的数据。查看当前的memcache连接数：[root@mem1 ~]# netstat -n | grep :11211 | wc -l15752查看默认允许的连接数：[root@mem

2014-11-26 16:25:34 742

原创 vc维的解释

在做svm的时候我们碰到了结构风险最小化的问题，结构风险等于经验风险+vc置信范围，其中的vc置信范围又跟样本的数量和模型的vc维有关，所以我们看一下什么是vc维首先看一下vc维的定义：对一个指标函数集，如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开，则称函数集能够把H个样本打散；函数集的VC维就是它能打散的最大样本数目H例如有个样本，一个函数能够将这h个样本打散，打

2014-11-20 14:01:24 3410

原创支持向量机的常见问题和推导

从svm的思路说起，进而到svm的具体推导过程

2014-11-20 10:33:11 4173 4

转载 hadoop MapReduce join

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File

2014-10-27 21:50:51 682

转载逻辑回归

转自：http://blog.csdn.net/pakko/article/details/37878837

2014-10-17 11:32:26 1183

转载信用评分的简单小结（ROC，IV，WOE）

转自：http://chen.yi.bo.blog.163.com/blog/static/150621109201011115616880/由于专业的关系，我学习信用评分的时候往往最关注模型那一块，前段时间一直有很多困惑，这周认真地看了一篇文章，终于有一点点明白了，所以来简单地小结一下（这事儿不能说得太细），小结完了我得学习cURL去了。最常见的用于信用评分的模型就是logist

2014-10-15 14:25:22 7299

转载在Linux上安装Memcached服务

下载并安装Memcache服务器端服务器端主要是安装memcache服务器端.下载：http://www.danga.com/memcached/dist/memcached-1.2.2.tar.gz另外，Memcache用到了libevent这个库用于Socket的处理，所以还需要安装libevent，libevent的最新版本是libevent-1.3。（如果你的系统已经安装了li

2014-09-15 14:42:42 657

转载 DSP、Trading Desk、Exchange、SSP ：解读广告生态圈

dsp：DSP是Demand-Side Platform的缩写，即需求方平台，

2014-07-24 14:25:44 3870

原创 shuffle过程的简单描述

shuffle是处在map和reduce之间的过程。我们看一下这个过程都有哪些步骤，对这个问题了解的并不深，可能有错误，忘指正1. mapmap输出key,value，对应代码里的context.write(key, value);，这个步骤是将key，value写到内存buffer里了，这个内存的默认大小是100M2. sort当数据大小超过buffer容量的80%（默认）时，会

2014-07-22 12:34:55 1486

转载拉格朗日对偶（Lagrange duality）

简介：1、在之前我们把要寻找最优的分割超平面的问题转化为带有一系列不等式约束的优化问题。这个最优化问题被称作原问题。我们不会直接解它，而是把它转化为对偶问题进行解决。2、为了使问题变得易于处理，我们的方法是把目标函数和约束全部融入一个新的函数，为了使问题变得易于处理，我们的方法是把目标函数和约束全部融入一个新的函数，即拉格朗日函数，再通过这个函数来寻找最优点。即拉格朗日函数，再通过

2014-07-21 22:22:48 4037

转载腾讯大数据之 TDW 计算引擎解析——Shuffle

腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分：MapReduce和Spark，两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析，并对两个计算引擎的Shuffle过程进行比较。目录[-]1、Shuffle过程介绍1.1 MapReduce的Shuffle过程介绍1.1.1 Spill过程

2014-07-17 13:07:53 2231

原创字符串匹配算法之sunday算法

字符串匹配算法之sunday算法的原理介绍和实现

2014-07-15 14:26:42 1405

转载 shuffle过程详解

转自： Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火

2014-07-11 16:16:36 928

原创 AUC的计算

AUC的计算方法

2014-07-09 15:22:43 5023

原创 maxent:最大熵模型的java实现，GIS训练

最大熵模型的简单实现，用GIS进行训练，可以看一下效果

2014-07-07 10:16:15 6381

原创 minhash算法

minhash算法

2014-07-01 22:49:45 3446

原创最优化算法学习

最优化相关系列

2014-07-01 00:03:34 1344

原创逻辑回归的相关问题及java实现

本讲主要说一下逻辑回归中的几个问题和具体的参数求解方法1. 什么是逻辑回归2. 正则化项3. 最小二乘法和最大似然法4. java实现梯度下降法实验：样本：-0.017612 14.053064 0-1.395634 4.662541 1-0.752157 6.538620 0-1.322371 7.152853 00.423363 11.054677 00.

2014-06-30 23:35:17 8973

转载 Eclipse使用Maven创建Web时错误：Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webap

Eclipse使用Maven创建Web时错误：Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webapb2013-10-15 22:22 5162人阅读评论(9) 收藏举报问题描述：使用Eclipse自带的Maven插件创建Web项目时报错：Could

2014-06-09 23:57:05 868

原创 hadoop下实现kmeans算法——一个mapreduce的实现方法

hadoop上进行kmeans聚类，一次迭代只使用一个mapreduce

2014-06-09 11:47:22 10136

原创最优化第二讲——一维搜索法（牛顿法）

一维搜算法中的牛顿法和java实现

2014-06-04 22:17:08 7553

原创最优化第二讲——一维搜索法（黄金分割法和java实现）

一维搜索算法中的黄金搜索法和实现

2014-06-04 22:15:43 4142 1

原创最优化第二讲——一维搜索法（斐波那契法和java实现）

斐波那契算法和实现

2014-06-04 22:11:48 6797

原创 hadoop全局变量问题

在实际使用的场景中，我们会遇到这样的问题，就是需要读取一个全局性的变量，例如，

2014-05-29 11:52:17 1594

转载数据挖掘之lsh minhash simhash

http://blog.csdn.net/hxxiaopei/article/details/7977248在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单，只要两两计算用户的相似性，针对每个用户，获取最相似的

2014-05-28 16:46:22 1465

原创最优化第二讲—一维搜索算法（二分法、等区间法）

本讲主要列一下单峰搜索算法

2014-05-25 17:04:24 16827

空空如也

空空如也