2013年02月_快乐的霖霖

原创 K-Means算法

K-Means算法 K-means算法是将样本聚类成k个簇（cluster），具体算法描述如下：1、随机选取k个聚类质心点（cluster centroids）为。2、重复下面过程直到收敛 { 对于每一个样例i，计算其应该属于的类对于每一个类j

2013-02-26 21:42:38 994

原创数据挖掘十大经典算法之apriori算法&源代码

数据挖掘十大经典算法之apriori算法&源代码 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。由Agrawal等人提出的Apriori是经典的关联规则和频繁项集挖掘算法，围绕着它的改进和实现

2013-02-26 11:25:18 2058

原创 TrustRank算法详细介绍

TrustRank算法详细介绍 TrustRank 算法最初来自于2004年斯坦福大学和雅虎的一项联合研究，用来检测垃圾网站，并且于2006年申请专利。TrustRank 算法发明人还发表了一份专门的PDF文件，说明 TrustRank 算法的应用。 TrustRank算法基于一个基本假设：好的网站很少会链接到坏的网站。反之则不成立，也就是说

2013-02-25 21:02:37 3206

原创用GCC和C99的可变参数宏，更方便地打印调试信息

用GCC和C99的可变参数宏，更方便地打印调试信息#ifdef DEBUG#define dbgprint(format,args...) \fprintf(stderr, format, ##args)#else#define dbgprint(format,args...)#endif如此定义之后，代码中就可以用dbgprint了，例如dbgprint("

2013-02-25 11:17:51 897

原创大数据：推荐系统

大数据：推荐系统下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第九章的总结。1 效用矩阵：推荐系统处理对象是用户和项。该矩阵提供某个用户对某个项的喜好程度。通常而言，大部分元素未知，推荐系统是基于已知项对未知元素进行预测。2 两类推荐系统：发现相似项以及用户对相似项的反应预测某个用户对某个项的反应。一类是基于内容，寻找项的特征计算相似度。一类是协同过

2013-02-23 16:28:13 1927

原创大数据：Web广告

大数据：Web广告下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第八章的总结。1 定向广告：Web广告按照某个用户的兴趣来选择，使得Web服务通过广告收益来支持运行。2 在线及离线算法：得到所有数据才产生答案的传统算法称之为离线算法。在线算法必须对流中的每一个元素都立即作答，此时仅对过去的信息有所了解，对未来的数据一无所知。3 贪心算法：在线

2013-02-23 16:26:18 1371

原创大数据：聚类

大数据：聚类下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第七章的总结。1 聚类：促某空间下点形式的有用的概要表示。为了对点进行聚类，需要在该空间下定义一个距离测度。2 聚类算法：层次聚类算法将每个点自己都看成一个簇，然后相近的簇进行合并。点分配聚类算法依次考虑每个点并将他们分配到最符合的簇。3 维数灾难：高维欧式空间和非欧空间。随机点之间往往

2013-02-23 16:23:59 2567

原创大数据：链接分析

大数据：链接分析下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第五章的总结。1 词项作弊：在web网页中估计引入那些与网页页面无关的用于误导搜索引擎的词项。2 对付词项作弊：Pagerank 。相信其他网页对当前网页的评价。3 Pagerank：是递归方程“重要网页指向的网页也重要”的解。4 Web的转移矩阵：一个或者多个链接从j指向

2013-02-23 16:21:59 1252

原创大数据：数据流挖掘

大数据：数据流挖掘下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第四章的总结。1 流数据模型：数据以某种速率达到处理引擎，该速率使得无法在当前内存存储数据。流处理一种策略是保留流的概要信息，使之足够回答数据的期望的查询。另一种是维持最近到达数据的滑动窗口。2 流抽样：为创建某类查询创建的流样本。确定流中关键属性集合。对任一到达流的键值进行哈希处理，使用

2013-02-23 16:18:54 1450

原创大数据：大规模文件系统及map-reduce

大数据：大规模文件系统及map-reduce 下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。1 分布式文件系统：distributed file system文件多副本存储，计算任务分多个，容错。文件非常大（TB），文件极少更新2 Map-reduce：a 多个map任务，每个任务输入是DFS的一个或者多个文件块

2013-02-23 16:14:35 1434

原创大数据：频繁项集

大数据：频繁项集下面是我下面是阅读《大数据—互联网大规模数据挖掘与分布式处理》一书第六章笔记，详细请见该书所述。1 购物篮数据：项与购物篮，多对多的关系。项存放于购物篮。2 频繁项集：项集的支持度包含该项的所有购物篮数目3 关联规则：若购物篮包含某项I，它很可能包含另一项J，J同属于包含I的购物篮的概率称为规则的可信度。规则兴趣度指可信度及包含j的所有购物

2013-02-23 16:12:13 2926

原创大数据：相似项发现

大数据：相似项发现下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第三章的总结。1 Jaccard相似度：交集大小/并集大小，可应用于文档相似度，购物习惯相似度计算2 Shingling：K-shingling文档中连续出现的任意K个字符。3 最小哈希：集合上的最小哈希函数是基于全局的排列转换来定义。给定任意一个排列转换，集合的最小哈希值为排

2013-02-23 09:42:42 1942

原创 QEMU模块模型

QEMU模块模型#define module_init(function, type) \static void __attribute__((constructor)) do_qemu_init_ ## function(void) { \ register_module_init(functio

2013-02-22 16:57:07 1424

原创 linux内核代码中alignof 对齐

linux内核代码中__alignof__ 对齐 GCC 和 XL C/C++ 中的关键字 __alignof__ 让您可以了解一个对象是如何对齐的。它的语法与 sizeof 类似。例如，如果目标及其要求一个 double 类型的值按照 8 字节边界进行对齐，那么 __alignof__ (double) 就是 8。 long double 类型的变量

2013-02-22 15:04:48 4573

原创 printk_ratelimit()简介

printk_ratelimit()简介printk_ratelimit()可以避免printk产生阻塞由于某些原因，频繁设置循环调用某个printk的语句，将会造成CPU的拥堵，如果输入终端是慢速，就会造成拥堵，我们也不可能从这种狂刷屏幕上读取到什么有效信息，基本上就看不清。内核编程提供了一下保护机制。下面是一个测试的例子： 1 for (i = 0 ; i 2 if(

2013-02-21 16:28:43 6740

原创 KVM中的ballooning详解

KVM中的ballooning详解1. Ballooning简介通常来说，要改变客户机占用的宿主机内存，是要先关闭客户机，修改启动时的内存配置，然后重启客户机才能实现。而内存的ballooning（气球）技术可以在客户机运行时动态地调整它所占用的宿主机内存资源，而不需要关闭客户机。Ballooning技术形象地在客户机占用的内存中引入气球（Balloon）的概念

2013-02-21 15:00:35 12763 1

原创 dd命令的解释

dd命令的解释dd：用指定大小的块拷贝一个文件，并在拷贝的同时进行指定的转换。注意：指定数字的地方若以下列字符结尾则乘以相应的数字：b=512；c=1；k=1024；w=2参数：1. if=文件名：输入文件名，缺省为标准输入。即指定源文件。2. of=文件名：输出文件名，缺省为标准输出。即指定目的文件。3. ibs=bytes：一次读入bytes个字节，

2013-02-21 10:44:05 1262

原创什么是大数据,大数据为什么重要?

什么是大数据,大数据为什么重要? 大数据通常定义为,超出了常用硬件环境和软件工具在可接受的时间内为其用户收集,管理和处理能量流的数据. 大数据的"大"不仅体现在容量上,还体现在多样性,速度及复杂度等方面. 大数据的威力体现在你所做的分析和所采取的行动上,而不是体现在"大"或"数据"这两个方面. 大数据通常由某类机器自动

2013-02-20 23:56:27 1715

转载一个华科研究生导师的肺腑之言（主要适用于理工科）

一个华科研究生导师的肺腑之言（主要适用于理工科）各位科研同志们看看吧，仁者见仁智者见智，总归有点用，人太多，不一一@啦。1.作为你们的老师，我现在每周工作60小时，踏踏实实的60小时。阅读，实践，思考，讨论和请教，周而复始。其实这还不够用，因为我既要独立做这边自己的课题，还要协助各位完成你们的课题。那么对你们的要求降低一些，每周50小时吧。希望是真实而有效率的50小时，思维和四

2013-02-20 15:55:00 3085 1

原创如何在CSDN博客添加友情链接

如何在CSDN博客添加友情链接每次看到别人的CSDN博客左侧都能够加上友情链接，我发现没有直接制定的，所以经过研究，我发现可以这样来添加友情链接。首先，进入博客设置，找到博客栏目。在里面新建一个栏目，名字随便，我这叫BLOG推荐然后把下面的代码粘贴到描述上去http://blog.csdn.net/chenglinhust" target=_bl

2013-02-19 17:04:59 1253 1

转载如何成为一个编程高手

如何成为一个编程高手在过去5年中，我面试了数百名IT工程师，我认为很值得把我的面试IT工程师的经验同大家分享。这能够：●帮助人们为他们的下一个面试准备●帮助IT工程师找到合适的工作。●帮助IT工程师创造更好的环境。我们通过两个方面面试IT工程师：●技术技能：包括理论和实践技能以及经验等。●非技术技能：性格，沟通技巧，是否能够融入我们的文化环境。

2013-02-07 12:55:32 872

原创计算机程序的构造和解释习题3.33

计算机程序的构造和解释习题3.33SICP Exercise 3.33This is similar as the celsius-fahrenheit-converter procedure.[plain] view plaincopy;;;Exercise 3.33 ;;;average (defi

2013-02-07 11:33:58 883

chenglinhust的专栏