自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Stay hungry, Stay foolish

新浪微博: Ralph_adu

原创 Learning To Rank之LambdaMART的前世今生

LambdaMART是Learning To Rank的其中一个算法,适用于许多排序场景。它是微软Chris Burges大神的成果,最近几年非常火,屡次现身于各种机器学习大赛中,Yahoo! Learning to Rank Challenge比赛中夺冠队伍用的就是这个模型,据说Bing和Fac...

2014-11-02 17:57:28 60190 11

原创 主题模型-LDA浅析

上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结: (一)LDA作用         传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,...

2012-09-03 14:09:24 236758 30

原创 基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms”

最近参加KDD Cup 2012比赛,选了track1,做微博推荐的,找了推荐相关的论文学习。“Item-Based Collaborative Filtering Recommendation Algorithms”这篇是推荐领域比较经典的论文,现在很多流行的推荐算法都是在这篇论文提出的算法的基...

2012-03-17 00:58:39 80731 29

原创 浅谈网络广告

今天下午参加了品友公司举办的技术交流会,该公司是做数字广告平台的,听了一下午,技术上只了解了那么几个概念,收获不大,倒是对网络广告的模式有了基本的认识。当听到他们公司广告投放平台是怎么运作的时候,对网络投放广告盈利模式比较感兴趣,所以对这块听的比较投入,随手用Evernote做了下笔记。     ...

2012-02-19 01:10:57 4084 10

原创 史上最全的搜索下拉提示用户交互研究——读《An Eye-tracking Study of User Interactions with Query Auto Completion》

搜索下拉提示(Query Auto Completion,简称QAC)现在几乎是每个搜索引擎必备的基本功能,作用是在用户在搜索框输入查询词的过程中,给用户展示一系列搜索查询query供用户选择,可以方便用户输入、缩短用户搜索时间、提高用户搜索体验。在这方面的研究已经有很多,如基于上下文、基于时间序...

2014-11-09 18:20:58 3206 0

原创 频繁项集挖掘算法之FPGrowth

背景:         频繁项集挖掘算法用于挖掘经常一起出现的item集合(称为频繁项集),通过挖掘出这些频繁项集,当在一个事务中出现频繁项集的其中一个item,则可以把该频繁项集的其他item作为推荐。比如经典的购物篮分析中啤酒、尿布故事,啤酒和尿布经常在用户的购物篮中一起出现,通过挖掘出啤酒...

2014-01-01 22:30:23 46144 6

原创 Bloom Filter的基本原理和变种

学习一个东西首先要知道这个东西是什么,可以做什么,接着再了解这个东西有什么好处和优势,然后再学习他的工作原理。下面我们分别从这三点简单介绍一下bloom filter,以及和他的变种。 What:在允许一定的错误率的情况下,用于判断一个元素是否属于一个集合,Bloom Filter可能会将一...

2013-12-14 18:21:02 2755 0

原创 Hadoop伪分布模式搭建

这两天在看《Hadoop in Action》,尝试着搭建伪分布模式,即在“单节点集群”运行Hadoop,步骤:                 1. 配置conf文件夹下hadoop-env.sh文件的JAVA_HOME环境变量指向Java安装目录 export JAVA_HOME=/usr...

2012-12-30 11:30:01 2880 0

原创 Weka中的ARFF文件

Weka中用的ARFF文件格式分为两部分:Header 和Data。其中Header部分用于定义Relation的名字、一系列Attribute的名字和类型,比如: @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIB...

2012-12-13 17:00:18 7785 0

原创 插入查找元素效率问题——《编程珠玑》读书笔记

这两天看了第13章,看了好长一段时间,主要花在理解和编程实现上面,感觉自己的理解能力还有待提高。         这一章主要讲如何实现一个有序集合(Set),该集合插入元素时不能插入重复元素,每次插入完后集合中元素的排列是有序的。书上一共使用了6种数据结构实现这个集合:STL中的set(红黑数)...

2012-07-09 21:59:02 2230 0

原创 位图排序及其扩展应用——《编程珠玑》读书笔记

一、基本的位图排序         问题1:输入一个包含n=100万个正整数的文件,每个正整数都小于N=1000万,而且这100万个正整数没有重复,对这个文件的数字进行排序,保存结果到文件中。要求占用尽可能小的内存,速度尽可能快。         分析解决:如果用一个int保存一个正整数,...

2012-06-03 16:49:36 2908 0

原创 洗牌程序

之前在写抽样问题——《编程珠玑》读书笔记这篇文章的时候提到将一个数列进行重新排列,目的是弄乱原有数据的排列,相当于洗牌,这篇文章主要讲讲这个洗牌程序的实现。         一、Fisher–Yates Shuffle         最早提出这个洗牌方法的是 Ronald A. Fish...

2012-06-01 00:47:14 8045 1

原创 蓄水池抽样——《编程珠玑》读书笔记

问题:如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是在此之前你是不知道n的值的。         思路:如果我们知道n的值,那么问题就可以简单的用一个大随机数rand()%n得到一个确切的随机位置,那么该位置的对象就是所求的对象,选中的概率是1/n。         但现在我们...

2012-05-31 17:18:15 34341 10

原创 抽样问题——《编程珠玑》读书笔记

问题:输入两个整数m和n,并且m         方法一:         Knuth著作《Seminumerical Algorithms》中提出的方法,顺序遍历n个数,通过随机测试条件的元素被选择。         以一个例子来解释所说的随机测试条件,比如m=2,n=5。第一个元素0被选...

2012-05-30 20:40:19 3011 0

转载 手把手教你把Vim改装成一个IDE编程环境(图文)

手把手教你把Vim改装成一个IDE编程环境(图文) 本文转自:http://blog.csdn.net/wooin/article/details/1858917 By: 吴垠 Date: 2007-09-07 Version: 0.5 Em...

2012-05-12 14:59:41 2310 0

原创 一道笔试题——由数组中除了一个数之外的其他数的乘积生成另一个数组

一、题目         对于一个数组A[N],要求生成一个新的数组B[N]。对数组B的要求是B[i] = A[0] * A[1]…*A[i - 1] * A[i + 1]*…*A[N],也就是不包括A[i]的剩余元素之积。         二、要求         1. 不允许使用除法; ...

2012-04-13 15:50:36 2624 0

转载 位操作基础篇之位操作全面总结

位操作篇共分为基础篇和提高篇,基础篇主要对位操作进行全面总结,帮助大家梳理知识。提高篇则针对各大IT公司如微软、腾讯、百度、360等公司的笔试面试题作详细的解答,使大家能熟练应对在笔试面试中位操作题目。       下面就先来对位操作作个全面总结,欢迎大家补充。 在计算机中所有数据都是...

2012-03-20 09:28:51 1628 0

原创 动态规划——装配线调度问题

一、问题描述         装配线调度问题如下:         Colonel汽车公司在有两条装配线的工厂内生产汽车,一个汽车底盘在进入每一条装配线后,在每个装配站会在汽车底盘上安装不同的部件,最后完成的汽车从装配线的末端离开。如下图1所示。 ...

2012-03-19 15:03:01 2705 2

原创 C++ STL原来可以这么强大

今天在做C++ Primer第14章习题14.37的时候用到了一些STL的函数,彻底颠覆了我对C++的看法。以前总觉得C++很麻烦,实现一个功能总要写一堆的代码,很繁琐,那是菜鸟时候的想法。虽然现在也还是菜鸟,但级别比原来提高了一点,今天使用了STL的算法之后才知道,原来C++也可以这么简洁。 ...

2012-03-15 11:57:50 4999 7

原创 C++访问控制之private剖析

今天在看C++ Primer,写重载操作运算符练习程序的时候,在成员函数中直接操作形参中同类型对象的private成员,程序如下: OperatorOverload& OperatorOverload::operator=(const OperatorOverload &op...

2012-03-12 11:55:02 2441 2

原创 C++复制构造函数的诡异行为研究

C++ Primer(4 edition) 中文版P407上说:“复制初始化首先使用指定构造函数创建一个临时对象,然后用复制构造函数将那个临时对象复制到正在创建的对象。”但我的实验结果显示是没有调用复制构造函数。         我做了个实验(实验1),首先写了一个简单的类,里面提供一个默认构造...

2012-03-09 11:41:42 1622 3

原创 C++ Primer 读书笔记——第12章 类

1. 构造函数一般应用一个构造函数初始化列表来初始化对象的数据成员。 2. 构造函数不能为const。 3. 可以认为够在函数分两个阶段执行:(1)初始化阶段;(2)普通计算阶段,计算阶段由构造函数函数体中所有语句组成。 4. 不管成员是否在构造函数初始化列表中显示初始化,类类型的数据成员总...

2012-03-08 18:33:35 1530 0

原创 Stanford Online Machine Learning 学习笔记1——单变量线性回归

TomMitchell 对机器学习的定义是:Acomputer program is said to learn from experience E, with respect to some taskT,  and some performance measure P, if its perfo...

2012-02-19 21:19:39 7146 0

原创 C++程序的编译过程及g++与之对应的几个参数

C++程序在编译的时候主要有以下几个过程:     1. 预编译(预处理):主要是对伪指令(以#开头的指令)和特殊符号进行处理。      伪指令主要包括:     (1)宏指令:如#define NAME ADU,#undef等。对于第一个指令,预编译主要是进行替换,除了NAME字符串常量...

2012-02-14 18:52:47 2932 0

转载 Git常用操作命令收集

最近在用Git做版本控制,发现Git有很多命令,把一些常用的记下来,以备查看,下面的内容是转发一个童鞋总结的,挺好的,学习一下。 -----------------------------------------------------------------------------------...

2012-02-13 10:27:25 1420 0

原创 如何用javac 和java 编译运行整个Java工程

前言:本文教你怎么用javac和java命令,以及如何利用脚本(shell或bat)方便处理,并用简单的实例展示这些用法。         IDE是把双刃剑,它可以什么都帮你做了,你只要敲几行代码,点几下鼠标,程序就跑起来了,用起来相当方便。你不用去关心它后面做了些什么,执行了哪些命令,基于什么...

2011-11-02 22:56:19 79799 13

原创 找最小的K个数

今天在CSDN无意中看到July一篇号称《当今世界最为经典的十大算法》的博文,感觉这文章名字挺霸气,于是进去瞅了一眼。看到其中有一个叫做BFPRT的算法,据说可以最坏情况下也能以O(N)复杂度找到数组中的第K大元素。博文里有链接到详细解释这个算法的另外一篇博文,于是又点进去,准备看看这算法是如何神...

2011-10-24 23:51:45 7902 4

原创 如何不生成XML文件通过Socket传XML文件内容

最近做项目碰到一个问题,想在客户端生成XML文件内容,但不在硬盘上创建文件(没这个需求),可以减少I/O操作,提高效率,改为直接发送XML内容。发现Jdom还是挺好用的,直接用下面一点代码就可以完成这项任务,生成XML字符串 //省略生成XML的代码 Document do

2011-10-19 00:11:12 7462 2

原创 如何在SSH断开后让远程服务器程序继续运行

主要参考来自:http://blog.csdn.net/wind19/article/details/4986458     今天在一个技术群中看到有人在讨论这个问题,刚好手头上正在做物联网项目,也遇到这么个问题,只是之前一直在测试阶段,没怎么把这个问题放在心上,断了重新连

2011-10-09 15:00:29 3664 0

转载 事件驱动

3.4事件驱动——有事我叫你,没事别烦我 劳心者治人,劳力者治于人                                           ——《孟子·滕文公上》 关键词:编程范式,事件驱动式,回调函数,framework,IoC,DIP,观察者模

2011-06-04 17:45:00 12616 5

转载 C++代码和调试

    公司开发项目调试的时候遇到一个头疼的问题,一个函数给很多地方调用了,但我只要某个参数值时执行该断点,这种高级的调试从来没接触过,上网搜了一下,果然有这方面的调试技术,下面是我找的资料,挺有用的,分享一下。    原文链接是:http://hhfighting.blog.163.com/bl...

2011-05-12 11:02:00 1678 1

原创 让我思潮翻滚的IBM面试内容

今天刚从北校笔试完IBM回来,感觉一般般,回来后上网随便看看别人的面试经历。其实也不是觉得自己可以进面试,从笔试过程感觉进面试机会不大,只是出于好奇,想了解一下别人是如何面试IBM的,IBM到底需要什么样的人才,或许对以后的职业发展有所帮助——虽然以后不是非得进IBM,但IBM作为IT行业的领头羊...

2010-05-30 21:41:00 1833 0

转载 基于JVM的异常诊断和性能调优

JVM GC 原理介绍:     以前我作为java 开发人员,用的都是sun 的JVM (这也是当今最好用的虚拟机),由于垃圾收集的工作都是交给JVM 做,只要编码的时候注意不要在静态的集合对象中只添加对象,而不删除对象的情况发生,就可以避免内存泄漏,所以自己从没有认真考虑过要将GC 好好学习一...

2010-05-29 13:21:00 4525 0

转载 从月薪3500到700万——一个大学生的成长经历

  来上海整整五年了,事业上已有了突飞猛进的飞跃,生活方面有过一段段的辛酸。然而,如今回首看来,这五年来也这是这些苦恼最终成为我前进的机遇,让我拥有了目前还算可以的生活境遇?700万身价,对有些兄弟来说可能是微不足道,但是我想大多数朋友还可能暂时没有达到这个状态---没有半点炫耀的意思,我知道朋友...

2010-05-20 19:19:00 3459 0

转载 面试题之10亿正整数问题--完整解答

关于这个问题,经过这么久的讨论,两篇文章及大家的回复,已经比较很清楚了。这里就来完整的整理一下解答。其实本来已经整理得差不多了,不过很不幸,电脑忽然罢工,怎么也启动不了,然后又感冒了,所以一直到现在才开始做这个解答。 好了,不说这个了。下面进入正题。 这个

2010-05-10 13:45:00 1813 0

转载 随机数的生成

问题描述:        现要求产生 0~n-1 范围内的 m 个随机整数的有序列表,且不允许重复,m         考虑到 n 的值可能很大,而通常 C/C++ 提供的随机数产生器所能返回的随机数在 [0,RAND_MAX],其中,RAND_MAX 为 0x7FFF。也就是说只有 15 位的随...

2010-05-09 20:06:00 1650 1

转载 位图算法的应用

位图的应用 编程珠玑 Chapter1 位图或位向量图作为一个集合,表示的这样的一个数据结构:           用字符串 0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 表示集合 {1,2,3,5,8,13}.     位图的应用需

2010-05-08 16:10:00 5786 0

转载 位运算详解

【 在网上看了一下位运算方面的内容,整合了两篇文章的内容,也加进了自己的一点理解 原文链接: 1.http://www.rupeng.com/forum/thread-2142-1-1.html 2.http://peirenlei.javaeye.com/blog/305

2010-05-08 15:18:00 1300 0

转载 测试ASCII码方法

ASCII码 (char)9,(char)10,(char)13 (char)9   水平制表符 (char)10 换行 (char)13 回车 测试ASCII码的方法: 在记事本中,按住ALT键,同时用小键盘输入十进制的ASCII码,然后松手,

2010-05-08 00:49:00 1301 0

转载 随便说说字符集和编码

快下班时,爱问问题的小朋友Nico又问了一个问题:     "sqlserver里面有char和nchar,那个n据说是指unicode的数据,这个是什么意思。"     并不是所有简单的问题都很容易回答,就像这个问题一样。于是我答应专门写一篇BLOG来从头讲讲编码的故事。那

2010-05-07 22:24:00 1059 3

提示
确定要删除当前文章?
取消 删除