自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

chenglinhust的专栏

分布式系统 基础架构 中间件系统 安全领域 容器技术 人工智能

  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 K-Means算法

K-Means算法     K-means算法是将样本聚类成k个簇(cluster),具体算法描述如下:1、 随机选取k个聚类质心点(cluster centroids)为。2、 重复下面过程直到收敛 {               对于每一个样例i,计算其应该属于的类                              对于每一个类j

2013-02-26 21:42:38 994

原创 数据挖掘十大经典算法之apriori算法&源代码

数据挖掘十大经典算法之apriori算法&源代码        Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。    由Agrawal等人提出的Apriori是经典的关联规则和频繁项集挖掘算法,围绕着它的改进和实现

2013-02-26 11:25:18 2058

原创 TrustRank算法详细介绍

TrustRank算法详细介绍               TrustRank 算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。TrustRank 算法发明人还发表了一份专门的PDF文件,说明 TrustRank 算法的应用。       TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站。反之则不成立,也就是说

2013-02-25 21:02:37 3206

原创 用GCC和C99的可变参数宏, 更方便地打印调试信息

用GCC和C99的可变参数宏, 更方便地打印调试信息#ifdef DEBUG#define dbgprint(format,args...) \fprintf(stderr, format, ##args)#else#define dbgprint(format,args...)#endif如此定义之后,代码中就可以用dbgprint了,例如dbgprint("

2013-02-25 11:17:51 897

原创 大数据:推荐系统

大数据:推荐系统下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第九章的总结。1 效用矩阵:推荐系统处理对象是用户和项。该矩阵提供某个用户对某个项的喜好程度。通常而言,大部分元素未知,推荐系统是基于已知项对未知元素进行预测。2 两类推荐系统:发现相似项以及用户对相似项的反应预测某个用户对某个项的反应。一类是基于内容,寻找项的特征计算相似度。一类是协同过

2013-02-23 16:28:13 1927

原创 大数据:Web广告

大数据:Web广告下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第八章的总结。1 定向广告:Web广告按照某个用户的兴趣来选择,使得Web服务通过广告收益来支持运行。2 在线及离线算法:得到所有数据才产生答案的传统算法称之为离线算法。在线算法必须对流中的每一个元素都立即作答,此时仅对过去的信息有所了解,对未来的数据一无所知。3 贪心算法:在线

2013-02-23 16:26:18 1371

原创 大数据:聚类

大数据:聚类下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第七章的总结。1 聚类:促某空间下点形式的有用的概要表示。为了对点进行聚类,需要在该空间下定义一个距离测度。2 聚类算法:层次聚类算法 将每个点自己都看成一个簇,然后相近的簇进行合并。点分配聚类算法依次考虑每个点并将他们分配到最符合的簇。3 维数灾难:高维欧式空间和非欧空间。随机点之间往往

2013-02-23 16:23:59 2567

原创 大数据:链接分析

大数据:链接分析下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第五章的总结。1 词项作弊:在web网页中估计引入那些与网页页面无关的用于误导搜索引擎的词项。2 对付词项作弊:Pagerank 。相信其他网页对当前网页的评价。3 Pagerank:是递归方程“重要网页指向的网页也重要”的解。4 Web的转移矩阵:一个或者多个链接从j指向

2013-02-23 16:21:59 1252

原创 大数据:数据流挖掘

大数据:数据流挖掘 下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第四章的总结。1 流数据模型:数据以某种速率达到处理引擎,该速率使得无法在当前内存存储数据。流处理一种策略是保留流的概要信息,使之足够回答数据的期望的查询。另一种是维持最近到达数据的滑动窗口。2 流抽样:为创建某类查询创建的流样本。确定流中关键属性集合。对任一到达流的键值进行哈希处理,使用

2013-02-23 16:18:54 1450

原创 大数据:大规模文件系统及map-reduce

大数据:大规模文件系统及map-reduce 下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。1 分布式文件系统:distributed file system文件多副本存储,计算任务分多个,容错。文件非常大(TB),文件极少更新2 Map-reduce:a 多个map任务,每个任务输入是DFS的一个或者多个文件块

2013-02-23 16:14:35 1434

原创 大数据:频繁项集

大数据:频繁项集 下面是我下面是阅读《大数据—互联网大规模数据挖掘与分布式处理》一书第六章笔记,详细请见该书所述。1 购物篮数据:项与购物篮,多对多的关系。项存放于购物篮。2 频繁项集:项集的支持度包含该项的所有购物篮数目3 关联规则:若购物篮包含某项I,它很可能包含另一项J,J同属于包含I的购物篮的概率称为规则的可信度。规则兴趣度指可信度及包含j的所有购物

2013-02-23 16:12:13 2926

原创 大数据:相似项发现

大数据:相似项发现下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第三章的总结。1 Jaccard相似度 :交集大小/并集大小,可应用于文档相似度,购物习惯相似度计算2 Shingling:K-shingling文档中连续出现的任意K个字符。3 最小哈希:集合上的最小哈希函数是基于全局的排列转换来定义。给定任意一个排列转换,集合的最小哈希值为排

2013-02-23 09:42:42 1942

原创 QEMU模块模型

QEMU模块模型#define module_init(function, type)                                         \static void __attribute__((constructor)) do_qemu_init_ ## function(void) {  \    register_module_init(functio

2013-02-22 16:57:07 1424

原创 linux内核代码中__alignof__ 对齐

linux内核代码中__alignof__ 对齐       GCC 和 XL C/C++ 中的关键字 __alignof__ 让您可以了解一个对象是如何对齐的。它的语法与 sizeof 类似。例如,如果目标及其要求一个 double 类型的值按照 8 字节边界进行对齐,那么 __alignof__ (double) 就是 8。      long double 类型的变量

2013-02-22 15:04:48 4573

原创 printk_ratelimit()简介

printk_ratelimit()简介printk_ratelimit()可以避免printk产生阻塞由于某些原因,频繁设置循环调用某个printk的语句,将会造成CPU的拥堵,如果输入终端是慢速,就会造成拥堵,我们也不可能从这种狂刷屏幕上读取到什么有效信息,基本上就看不清。内核编程提供了一下保护机制。下面是一个测试的例子: 1 for (i = 0 ; i 2    if(

2013-02-21 16:28:43 6740

原创 KVM中的ballooning详解

KVM中的ballooning详解1. Ballooning简介通常来说,要改变客户机占用的宿主机内存,是要先关闭客户机,修改启动时的内存配置,然后重启客户机才能实现。而内存的ballooning(气球)技术可以在客户机运行时动态地调整它所占用的宿主机内存资源,而不需要关闭客户机。Ballooning技术形象地在客户机占用的内存中引入气球(Balloon)的概念

2013-02-21 15:00:35 12763 1

原创 dd命令的解释

dd命令的解释dd:用指定大小的块拷贝一个文件,并在拷贝的同时进行指定的转换。注意:指定数字的地方若以下列字符结尾则乘以相应的数字:b=512;c=1;k=1024;w=2参数:1. if=文件名:输入文件名,缺省为标准输入。即指定源文件。2. of=文件名:输出文件名,缺省为标准输出。即指定目的文件。3. ibs=bytes:一次读入bytes个字节,

2013-02-21 10:44:05 1262

原创 什么是大数据,大数据为什么重要?

什么是大数据,大数据为什么重要?        大数据通常定义为,超出了常用硬件环境和软件工具在可接受的时间内为其用户收集,管理和处理能量流的数据.        大数据的"大"不仅体现在容量上,还体现在多样性,速度及复杂度等方面.        大数据的威力体现在你所做的分析和所采取的行动上,而不是体现在"大"或"数据"这两个方面.        大数据通常由某类机器自动

2013-02-20 23:56:27 1715

转载 一个华科研究生导师的肺腑之言(主要适用于理工科)

一个华科研究生导师的肺腑之言(主要适用于理工科)各位科研同志们看看吧,仁者见仁智者见智,总归有点用,人太多,不一一@啦。1.作为你们的老师,我现在每周工作60小时,踏踏实实的60小时。阅读,实践,思考,讨论和请教,周而复始。其实这还不够用,因为我既要独立做这边自己的课题,还要协助各位完成你们的课题。那么对你们的要求降低一些,每周50小时吧。希望是真实而有效率的50小时,思维和四

2013-02-20 15:55:00 3085 1

原创 如何在CSDN博客添加友情链接

如何在CSDN博客添加友情链接每次看到别人的CSDN博客左侧都能够加上友情链接,我发现没有直接制定的,所以经过研究,我发现可以这样来添加友情链接。首先,进入博客设置,找到博客栏目。在里面新建一个栏目,名字随便,我这叫BLOG推荐然后把下面的代码粘贴到描述上去http://blog.csdn.net/chenglinhust" target=_bl

2013-02-19 17:04:59 1253 1

转载 如何成为一个编程高手

如何成为一个编程高手在过去5年中,我面试了数百名IT工程师,我认为很值得把我的面试IT工程师的经验同大家分享。这能够:●帮助人们为他们的下一个面试准备●帮助IT工程师找到合适的工作。●帮助IT工程师创造更好的环境。我们通过两个方面面试IT工程师:●技术技能:包括理论和实践技能以及经验等。●非技术技能:性格,沟通技巧,是否能够融入我们的文化环境。

2013-02-07 12:55:32 872

原创 计算机程序的构造和解释习题3.33

计算机程序的构造和解释习题3.33SICP Exercise 3.33This is similar as the celsius-fahrenheit-converter procedure.[plain] view plaincopy;;;Exercise 3.33  ;;;average  (defi

2013-02-07 11:33:58 883

走向分布式基础学习

是学习分布式的好资料,里面的内容讲解的非常详细,是一个台湾人下载的

2015-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除