技术源于生活

努力学习新技术

使用awk + sort做数据统计

之前用Java作日志分析,算PV的时候,要把URL提取出来,然后用hash来累计。后来日志多了,单机扛不住,就改上hadoop,算法基本不变。但今天发现,其实用awk命令就可以简单做到。而且性能相当快。再加上sort,连排序都一起做了。超级爽。 

2009-03-19 23:55:00

阅读数:1905

评论数:1

Programming Collective Intelligence笔记 - Document Filtering

1.1.       Filtering Spam过滤广告的时候,我们第一步就是把文档进行分类,然后就是把文档进行分词,每个词都直接继承文档的分类。这样通过一些初始的训练之后,每个词都会出现在某一个或某几个分类当中。这样我们就得到了某一个词出现在某一个分类当中的概率P(W/C) = W在C中出现的...

2008-01-17 10:14:00

阅读数:1491

评论数:0

Programming Collective Intelligence笔记 - 最优化

1.        最优化最优化要解决的问题是,当我们面对的问题有多种解决方案时(数量级比较大),我们应该通过什么方法来找到最优的方案。 1.1.       Cost函数在考虑最优解时,我们首先需要定一个一个Cost函数,他的作用就是把我们的解决方案量化为一个数值。 1.2.       随机算...

2008-01-07 16:49:00

阅读数:1777

评论数:0

Programming Collective Intelligence笔记 - Ranking

在搜索时,当我们有多个搜索结果时,我们需要对结果进行排序,这里讲的是如何对结果进行评分,从而进行排序。

2008-01-03 10:14:00

阅读数:1697

评论数:0

Programming Collective Intelligence笔记 - Discovering Groups

1.1.       Hierarchical Clustering使用类似于Huffman编码时的合并方式。假设有N个节点,每个节点的值都是一个向量。通过第二章介绍的寻找相似物品的公式,我们可以计算任何两个向量间的距离。把距离最小的两个向量合并,生成一个新的节点,该节点的向量值是被合并的两个节点...

2007-12-25 17:43:00

阅读数:1611

评论数:0

Programming Collective Intelligence笔记 - Making Recommendations

1.        Making Recommendations1.1.       寻找相似用户1.1.1.      Euclidean distance在计算该值时,只考虑两个用户都进行了评分的项目。每一项作为一个坐标,然后算欧几里德距离。值越小越相似。1.1.2.      Pearson...

2007-12-13 22:18:00

阅读数:1677

评论数:0

RDF简介

1.   RDF概述RDF的全称是(Resource Description Framework),顾名思义,他就是用来对资源进行描述的。RDF提供了用于描述二元关系的语法。而解释器通过读取RDF文件,就可以构建出各资源之间的关系,并在此基础上进行推演,得出隐藏在资源之间的关系。 2.   RDF...

2007-01-11 14:21:00

阅读数:2824

评论数:0

待完成文章列表

         好久没更新了,最近在搞Firefox开发,看了一些XUL的东西,好好整理一下,估计能顶个两,三篇。        之前写过C++的,虽然被大家披了,但是无所谓,我还是觉得 C++还是有地方可以让我挑剔的,整理一下,继续讨骂。        IBM的SOA初赛马上也要结束了,也是时...

2006-06-23 15:21:00

阅读数:1184

评论数:0

C++自谈(To 所有评论者)

当然我是C++菜鸟,楼上的说法都对。 但是,没有一个语言是完美的,没有那个东西是不能批评的,一百个人心中有一百个汉姆雷特,我觉得我说他复杂没有什么问题。 现在一个流行词叫分离关注,一次做好一件事就行了,但C++显然不是,他又要兼顾速度,又要不失面向对象,又要保留C程序员。if you dont u...

2006-05-29 14:59:00

阅读数:2043

评论数:4

今天学到的几个Ruby技巧

当要使用TDD来开发包含IO的程序时,可以自己Mock一个假的IO,然后assert这个假IO的字段。另外一个就是Forwardable模块,如果一个类extend了这个模块,那么她就能使用这个模块定义的def_delegate方法,把对这个对象的方法调用转发到def_delegate所指定的实例...

2006-04-26 00:32:00

阅读数:1402

评论数:0

终于把SIP搭起来了

        虽然几经挫折,多翻折腾,还好最后还是把SIP搭起来了。虽然,功能上尚显简陋,但好歹能用了,发文庆祝一把。PS:nokia还是比较过分,为什么不提供SIP的Java实现,只提供C++的了,显然包藏私心啊。sun也是,WTK都差不多一年没更新了,还不赶紧把这个冬冬加进去,累死人了。

2005-05-30 21:25:00

阅读数:1573

评论数:3

SWT与Swing的比较

1.   组件体系:a)       Swing:通过在父组件上动态调用add()和remove()方法,来对组件树进行动态维护,因此,可以存在没有父组件的子组件。b)       SWT:通过在构造函数的参数中,指定父组件,因此,不可能存在没有父组件的子组件。 2.   组件绘制:a)     ...

2005-04-26 17:44:00

阅读数:1933

评论数:0

GDB简单使用手册

1.   主程序:#include  void emit(int i); int main(){    int a = 0;    int i;    for(i=0;i        emit(i);    }    printf("Exit");    return 0;}...

2005-02-28 15:11:00

阅读数:1369

评论数:2

UML精简手册

1.   图2.   Use Case Diagrama)        作用:抽象系统的功能。 b)        继承(范化)关系:用于表示相同接口,不同实现                      i.              图:                   ii.      ...

2005-01-19 14:25:00

阅读数:1408

评论数:3

Ant使用小结

1.   Ant简介Ant是Apache开发的一个开源工具,他可以自动化很多事情。例如,他可以进行Java方面的自动编译,打包,执行。也可以调用操作系统下的可执行程序。所以,从简单来说Ant的作用可以跟一个批处理文件类似,就是你可以定义连串的任务,然后敲一个命令,由系统帮你全部执行。当然Ant不止...

2004-12-22 18:39:00

阅读数:2907

评论数:1

很重要

方向比努力重要,能力比知识重要,健康比成绩重要,生活比文凭重要,EQ比IQ重要。

2004-12-19 19:19:00

阅读数:939

评论数:2

开始蚂蚁了

喜欢搞Java的人大都喜欢搞开源,尤其是中国人,毕竟开源就是不要银子嘛。所以,但凡搞Java的好像没几个不b4ms的,当然这还和他在ie里面只支持低版本的jvm有关系了,记得因为这个事情,我当年的applet也只能用awt做。但是,ms也有做好事的,xp就是个好东东,我现在每天都在用了,不过当然了...

2004-12-16 22:45:00

阅读数:1028

评论数:2

提示
确定要删除当前文章?
取消 删除
关闭
关闭