自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (2)
  • 收藏
  • 关注

转载 数据存储---内存列式数据库KDB+(Q)文档

Kx systems公司的创始人之一Arthur Whitney在2003年研发了列式数据库KDB和它的操作语言Q。    官网:www.kx.com主要Feature:内存内的数据库:理解KDB的一种方式就是KDB是一个内存数据库,但拥有磁盘可持久化能力。解释性语言 :开发周期更短,q语言要做到简洁,高效和富表达性。(当然学习曲线也不是一般般滴说)列表是有顺序的 :不同于数据

2015-10-30 14:35:46 5415

原创 数据检索---空间向量模型VSM

向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。M个无序

2015-10-20 12:44:52 1548

原创 数据检索---分词算法

在Lucene索引的时候已经引出了分词(Analyser)这个慨念,分词也是信息检索的时候重要的一步。我们知道英文一个单词就是一个词,两者直接使用空格天然的隔开,分词就变得很容易了,而汉语的一个句子里面有很多个汉字组成,里面有基本意义的就是词语,单个汉字往往没有对句子有足够的信息,而词语可以说是最小的语义单位。在检索的时候我们一般都是根据词语来匹配的,词语在整片文字中扮演着重要的角色。1、基于

2015-10-20 12:17:08 2598

原创 数据处理---Java数据处理之消息队列

前面说了RMI,这是一个同步分布式调用的必备手段;但是为了实现异步的分布式处理,不得不说到的就是消息队列了。对任何架构或应用来说,消息队列都是一个至关重要的组件,它具有多方面的优点:1. 解耦性消息队列在处理过程提供了中间插入了一个隐含的、基于数据的接口层。这样就可以把不同的系统边界隔离开来,每个系统做专门的事情,提供独立的服务,需要调用的时候传输给第三方。这允许你独立的扩展或修改两边的处

2015-10-09 13:43:19 2915

原创 大数据---Spark1.5.0之2W2H

天下武功,唯快不破。在面对大数据分析的时候,快就是那不破的武功,而Spark就是这样的神器!What is Spark         Apache Spark™ is a fast and general engine for large-scale data processing.         Spark官网说的很清楚了,它具有如下优点:Speed: Spark有高

2015-10-05 20:03:20 1209

数据分析师成长之路1218.pdf

数据分析师成长的必由之路,需要哪些技能,知识储备,数据怎么分析,怎么提升技巧,听听大咖的介绍。

2019-06-15

R统计语言教程.pdf

R统计语言基础教程,涵盖基础语法规则,基础数据操作,统计基础知识,基本算法操作。对于正在学习R的同学,是难得的入门教程。

2019-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除