Stay hungry, Stay foolish

新浪微博: Ralph_adu

排序:
默认
按更新时间
按访问量

主题模型-LDA浅析

上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结: (一)LDA作用         传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,...

2012-09-03 14:09:24

阅读数:221180

评论数:34

如何用javac 和java 编译运行整个Java工程

前言:本文教你怎么用javac和java命令,以及如何利用脚本(shell或bat)方便处理,并用简单的实例展示这些用法。         IDE是把双刃剑,它可以什么都帮你做了,你只要敲几行代码,点几下鼠标,程序就跑起来了,用起来相当方便。你不用去关心它后面做了些什么,执行了哪些命令,基于什么...

2011-11-02 22:56:19

阅读数:75620

评论数:13

基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms”

最近参加KDD Cup 2012比赛,选了track1,做微博推荐的,找了推荐相关的论文学习。“Item-Based Collaborative Filtering Recommendation Algorithms”这篇是推荐领域比较经典的论文,现在很多流行的推荐算法都是在这篇论文提出的算法的基...

2012-03-17 00:58:39

阅读数:66582

评论数:28

Learning To Rank之LambdaMART的前世今生

LambdaMART是Learning To Rank的其中一个算法,适用于许多排序场景。它是微软Chris Burges大神的成果,最近几年非常火,屡次现身于各种机器学习大赛中,Yahoo! Learning to Rank Challenge比赛中夺冠队伍用的就是这个模型,据说Bing和Fac...

2014-11-02 17:57:28

阅读数:41823

评论数:6

频繁项集挖掘算法之FPGrowth

背景:         频繁项集挖掘算法用于挖掘经常一起出现的item集合(称为频繁项集),通过挖掘出这些频繁项集,当在一个事务中出现频繁项集的其中一个item,则可以把该频繁项集的其他item作为推荐。比如经典的购物篮分析中啤酒、尿布故事,啤酒和尿布经常在用户的购物篮中一起出现,通过挖掘出啤酒...

2014-01-01 22:30:23

阅读数:41158

评论数:6

蓄水池抽样——《编程珠玑》读书笔记

问题:如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是在此之前你是不知道n的值的。         思路:如果我们知道n的值,那么问题就可以简单的用一个大随机数rand()%n得到一个确切的随机位置,那么该位置的对象就是所求的对象,选中的概率是1/n。         但现在我们...

2012-05-31 17:18:15

阅读数:21933

评论数:8

事件驱动

3.4事件驱动——有事我叫你,没事别烦我 劳心者治人,劳力者治于人                                           ——《孟子·滕文公上》 关键词:编程范式,事件驱动式,回调函数,framework,IoC,DIP,观察者模

2011-06-04 17:45:00

阅读数:11793

评论数:4

找最小的K个数

今天在CSDN无意中看到July一篇号称《当今世界最为经典的十大算法》的博文,感觉这文章名字挺霸气,于是进去瞅了一眼。看到其中有一个叫做BFPRT的算法,据说可以最坏情况下也能以O(N)复杂度找到数组中的第K大元素。博文里有链接到详细解释这个算法的另外一篇博文,于是又点进去,准备看看这算法是如何神...

2011-10-24 23:51:45

阅读数:7616

评论数:4

Weka中的ARFF文件

Weka中用的ARFF文件格式分为两部分:Header 和Data。其中Header部分用于定义Relation的名字、一系列Attribute的名字和类型,比如: @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIB...

2012-12-13 17:00:18

阅读数:7416

评论数:0

洗牌程序

之前在写抽样问题——《编程珠玑》读书笔记这篇文章的时候提到将一个数列进行重新排列,目的是弄乱原有数据的排列,相当于洗牌,这篇文章主要讲讲这个洗牌程序的实现。         一、Fisher–Yates Shuffle         最早提出这个洗牌方法的是 Ronald A. Fish...

2012-06-01 00:47:14

阅读数:7303

评论数:1

Stanford Online Machine Learning 学习笔记1——单变量线性回归

TomMitchell 对机器学习的定义是:Acomputer program is said to learn from experience E, with respect to some taskT,  and some performance measure P, if its perfo...

2012-02-19 21:19:39

阅读数:6838

评论数:1

如何不生成XML文件通过Socket传XML文件内容

最近做项目碰到一个问题,想在客户端生成XML文件内容,但不在硬盘上创建文件(没这个需求),可以减少I/O操作,提高效率,改为直接发送XML内容。发现Jdom还是挺好用的,直接用下面一点代码就可以完成这项任务,生成XML字符串 //省略生成XML的代码 Document do

2011-10-19 00:11:12

阅读数:6663

评论数:2

位图算法的应用

位图的应用 编程珠玑 Chapter1 位图或位向量图作为一个集合,表示的这样的一个数据结构:           用字符串 0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 表示集合 {1,2,3,5,8,13}.     位图的应用需

2010-05-08 16:10:00

阅读数:5458

评论数:0

基于JVM的异常诊断和性能调优

JVM GC 原理介绍:     以前我作为java 开发人员,用的都是sun 的JVM (这也是当今最好用的虚拟机),由于垃圾收集的工作都是交给JVM 做,只要编码的时候注意不要在静态的集合对象中只添加对象,而不删除对象的情况发生,就可以避免内存泄漏,所以自己从没有认真考虑过要将GC 好好学习一...

2010-05-29 13:21:00

阅读数:4367

评论数:0

C++ STL原来可以这么强大

今天在做C++ Primer第14章习题14.37的时候用到了一些STL的函数,彻底颠覆了我对C++的看法。以前总觉得C++很麻烦,实现一个功能总要写一堆的代码,很繁琐,那是菜鸟时候的想法。虽然现在也还是菜鸟,但级别比原来提高了一点,今天使用了STL的算法之后才知道,原来C++也可以这么简洁。 ...

2012-03-15 11:57:50

阅读数:3998

评论数:7

浅谈网络广告

今天下午参加了品友公司举办的技术交流会,该公司是做数字广告平台的,听了一下午,技术上只了解了那么几个概念,收获不大,倒是对网络广告的模式有了基本的认识。当听到他们公司广告投放平台是怎么运作的时候,对网络投放广告盈利模式比较感兴趣,所以对这块听的比较投入,随手用Evernote做了下笔记。     ...

2012-02-19 01:10:57

阅读数:3963

评论数:12

如何在SSH断开后让远程服务器程序继续运行

主要参考来自:http://blog.csdn.net/wind19/article/details/4986458     今天在一个技术群中看到有人在讨论这个问题,刚好手头上正在做物联网项目,也遇到这么个问题,只是之前一直在测试阶段,没怎么把这个问题放在心上,断了重新连

2011-10-09 15:00:29

阅读数:3351

评论数:0

从月薪3500到700万——一个大学生的成长经历

  来上海整整五年了,事业上已有了突飞猛进的飞跃,生活方面有过一段段的辛酸。然而,如今回首看来,这五年来也这是这些苦恼最终成为我前进的机遇,让我拥有了目前还算可以的生活境遇?700万身价,对有些兄弟来说可能是微不足道,但是我想大多数朋友还可能暂时没有达到这个状态---没有半点炫耀的意思,我知道朋友...

2010-05-20 19:19:00

阅读数:3344

评论数:0

史上最全的搜索下拉提示用户交互研究——读《An Eye-tracking Study of User Interactions with Query Auto Completion》

搜索下拉提示(Query Auto Completion,简称QAC)现在几乎是每个搜索引擎必备的基本功能,作用是在用户在搜索框输入查询词的过程中,给用户展示一系列搜索查询query供用户选择,可以方便用户输入、缩短用户搜索时间、提高用户搜索体验。在这方面的研究已经有很多,如基于上下文、基于时间序...

2014-11-09 18:20:58

阅读数:2943

评论数:0

位图排序及其扩展应用——《编程珠玑》读书笔记

一、基本的位图排序         问题1:输入一个包含n=100万个正整数的文件,每个正整数都小于N=1000万,而且这100万个正整数没有重复,对这个文件的数字进行排序,保存结果到文件中。要求占用尽可能小的内存,速度尽可能快。         分析解决:如果用一个int保存一个正整数,...

2012-06-03 16:49:36

阅读数:2831

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭