数据挖掘
刘爱贵
中科院博士,TaoCloud首席科学家,专注软件定义存储,聚焦智能存储、分布式全闪存、信创存储方向。GlusterFS技术专家,长期从事存储领域研发工作,分布式存储资深理论研究与实践者。
展开
-
数据聚类概述
[引言]我调研数据聚类的目的是想基于聚类对文件访问模式进行预测。许多系统把数据访问请求当作是独立的事件。实际上,数据请求并非完全随机,而是由用户或程序的行为驱动的,存在特定的访问模式。同类用户或多或少具有相同的访问模式,同类文件被同时访问的可能性相对比较大,同一个工作集 (可以看作一个类)内的文件往往在一个事务中都被访问。因此,需要根据有文件历史访问信息,对用户或文件等进行聚类,在此基础上对未来访原创 2008-03-25 21:14:00 · 3825 阅读 · 0 评论 -
文件访问预测
注:“文件访问预测”是我论文的研究工作中的一部分。 处理器与I/O存在速度鸿沟、网络带宽的限制(特别是无线移动网络)、网络应用的断连操作(如移动计算、AFS)等原因,造成了数据访问的延迟,IO和网络成为了制约性能的瓶颈。 为了解决这个问题,通常采用缓存(Cache)和预取(Pre-fetch)技术。缓存技术利用数据访问的时间局部性,对访问过的数据进行暂时的保留。但由于缓原创 2008-03-25 21:21:00 · 2382 阅读 · 7 评论 -
商业周刊:挖掘网络友情背后价值
转自新浪科技:http://tech.sina.com.cn/i/2009-05-22/22493118243.shtml 导读:将于下月出版的《商业周刊》封面文中指出,在信息时代,信息就是财富,朋友间的信息更是如此。谷歌、雅虎等知名互联网企业正不惜重金聘请专家,对网络友情展开大规模研究,试图中这些信息中挖掘更多价值,将其转化为利润。计算网络友情价值 有这样一个问题转载 2009-05-24 10:38:00 · 2783 阅读 · 0 评论 -
推荐系统原理简析
个性化推荐根据用户兴趣和行为特点,向用户推荐所需的信息或商品,帮助用户在过载信息中快速发现真正所需的商品,提高用户黏性,促进信息点击和商品销售。原创 2010-12-31 11:14:00 · 6047 阅读 · 1 评论