2015年08月_Star先生

原创 HBase基础知识(9):HBase其他特性

客户端API是由HTable的实例提供的，用户可以用它来操作HBase表。除了之前提到的一些主要特性外，还有以下一些值得注意的方法。HTable的实用方法void close() 用户使用完一个HTable实例之后，需要调用一次Close()。这个方法会刷写所有客户端缓冲的写操作：close()方法会隐式调用flushCache()方法。byte[] getTableName() 这是一个获

2015-08-28 10:24:19 2286

原创 HBase基础知识(8):扫描操作之缓存与批量处理

每一个next()调用都会为每行数据生成一个单独RPC请求，即使使用next(int nbRows)方法，也是如此，因为该方法仅仅是在客户端循环地调用next()方法。很显然，当单元格数据较小时，这样做的性能不会很好。因此，如果一次RPC请求可以获取多行数据，这样更会有意义。这样的方法可以由扫描器缓存实现，默认情况下，这个缓存是关闭的。可以在两个层面上打开它：在表的层面，这个表所有扫描实例的缓存

2015-08-27 12:09:00 5130

原创 HBase基础知识(7):扫描操作之ResultScanner类

扫描操作不会通过一次RPC请求返回所有匹配的行，而是以行为单位进行返回。很明显，行的数目很大，可能有上千条甚至更多，同时在一次请求中发送大量数据，会占用大量的系统资源并消耗很长时间。 ResultScanner类把扫描操作转换为类似的get操作，它将每一行数据封装成一个Result实例，并将所有的Result实例放入一个迭代器中。ResultScanner的一些方法如下：Result next

2015-08-27 09:51:12 8314

原创 Mongodb 请求处理流程

Mongodb多存储引擎支持机制介绍了Mongodb存储层创建数据库、创建集合、插入文档等数据库操作接口，本文将介绍mongodb处理客户端请求的模型。

2015-08-26 21:05:31 1489

扫描操作的使用跟get()方法非常相似。同样，和其他函数类似，这里也提供了Scan类。但是由于扫描的工作方式类似于迭代器，所以用户无需调用scan()方法创建实例，只需调用HTable的getScanner()方法，此方法在返回真正的扫描器(scanner)实例的同时，用户也可以使用它迭代获取数据。可用方法如下: ResultScanner getScanner(Scan scan) throws

2015-08-26 20:13:48 4029

原创 HBase基础知识(5):行锁

像put()、delete()、checkAndPut()这样的修改操作是独立执行的，这意味着在一个串行方式的执行中，对于每一行必须保证行级别的操作是原子性的。region服务器提供了一个行锁（row lock的特性，这个特性保证了只有一个客户端能获取一行数据相应的锁。同时对该行进行修改，在实践中，大部分客户端应用程序都没有提供显示的锁，而是使用这个机制来保障每个操作的独立性。 **用户应该尽

2015-08-26 16:12:51 2877

原创 HBase基础知识(4):批量处理操作

之前我们学习过添加、检索和删除表中数据的操作了，不过都是基于单个实例或基于列表的操作。下边介绍一些API调用，可以批量处理跨多行的不同操作。事实上，许多基于列表的操作，如delete(Listdeletes)或者get(Listgets)，都是基于batch()方法实现的。它们都是一些为了方便用户使用而保留的方法。如果你是新手，推荐使用batch()方法进行所有操作。下面的客户端API方

2015-08-26 15:13:03 5626

原创 HBase基础知识(3):CRUD操作之删除方法

HTable提供了删除的方法，同时与之前的方法有一个对应的类名为Delete。单行删除delete()方法有许多变体，其中一个只需要一个Delete实例:void delete(Delete delete) throws IOException用户必须先创建一个Delete实例，然后再添加你想要删除数据的详细信息。

2015-08-26 10:24:12 2712

原创 HBase基础知识(1):CRUD操作之put方法

数据库的初始基本操作被称CURD(Create,Read,Update,Delete),具体指增、查、改、删。HBase中有与之对应的一组操作。下面介绍的这些组操作可以被分为两类：一类操作用于单行，另一类操作用于多行。鉴于后面有一些内容比较复杂，我们将分开介绍着两类操作。同时，我们还会介绍一些衍生的客户端的API特性。单行put也许你现在最想了解的就是如何向HBase中存储数据，下面就是实现

2015-08-26 09:33:47 6548

原创 HBase基础知识(2):CRUD操作之get方法

HTable类中提供了get()方法，同时还有与之对应的Get类。get方法分为两类：一类是一次获取一行数据；另一类是一次获取多行数据。单行get这种方法可以从HBase中获取一个特定的值：Result get(Get get) throws IOException与put()方法对应Put类相似，get()方法也有对应的Get类，此外还有一个相似之处，那就是在使用下面的方法构造Get实例时，与

2015-08-25 14:11:17 4796

原创社交网络中潜在好友推荐算法研宄

算法概要计算用户间连通关系强度的算法可以分成两个部分:第一部分构建连通关系强度的计算模型即由链结关系网络图转换为对应的带有关系语境信息的链结关系网络图;第二部分进行用户间连通关系强度的计算。下面我们对该部分算法进行具体描述。

2015-08-23 10:33:20 8120 13

原创 Java字符串操作、基本运算方法等优化策略

字符串操作优化字符串对象字符串对象或者其等价对象 (如 char 数组)，在内存中总是占据最大的空间块，因此如何高效地处理字符串，是提高系统整体性能的关键。String 对象可以认为是 char 数组的延伸和进一步封装，它主要由 3 部分组成：char 数组、偏移量和 String 的长度。char 数组表示 String 的内容，它是 String 对象所表示字符串的超集。String 的真实内容

2015-08-22 20:37:04 1648

原创 HBase 数据库检索性能优化策略

HBase 数据表介绍HBase 数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于 Google 的非开源数据库”BigTable”。 HBase 调用 API 示例类似于操作关系型数据库的 JDBC 库，HBase client 包本身提供了大量可以供操作的 API，帮助用户快速操作 HBase 数据库。提供了诸如创建数据表、删除数据表、增加字段、存

2015-08-14 21:22:17 1357

原创简单REST 客户端使用 SQL，Hadoop，Drill

根据福雷斯特研究公司（Forrester Research）的观点，SQL将成为Hadoop生态系统中最多产的应用方案之一。Apache Drill 是一个应用于大数据搜索的开源SQL查询引擎。REST服务和客户端已经成为互联网流行的技术。 Apache HBase则是一个广受欢迎的Hadoop NoSQL数据库。在本文中，我将结合 SQL、Hadoop、Drill、REST with JSON、N

2015-08-14 20:37:21 1806

原创 Apriori算法

基本原理关联分析（association analysis）就是从大规模数据集中寻找物品间的隐含关系。这里的主要问题是，寻找物品的不同组合是一项十分耗时的任务，所需计算代价很高，蛮力搜索方法并不能解决这个问题，所以需要用更智能的方法在合理的时间内找到频繁项集。Apriori算法正是基于该原理得到的。关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系分为两种形式：频繁项集和关联规则。频繁项集（

2015-08-12 09:48:26 1786

原创 K近邻算法

k-近邻算法是基于实例的学习方法中最基本的，先介绍基于实例学习的相关概念。

2015-08-09 19:10:46 1373

原创宝贵数据集——用于数据挖掘、机器学习、文本挖掘

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.html http://www.cs.toronto.edu/~roweis/data.html http://kdd.ics.uci.edu/summary.task.type.html

2015-08-09 18:55:00 3563

原创 Microsoft 神经网络分析算法

本篇文章继续我们的微软挖掘系列算法总结，前几篇文章已经将相关的主要算法做了详细的介绍。在开始Microsoft 神经网络分析算法之前，本篇我们先将神经网络分析算法做一个简单介绍，此算法由于其本身的复杂性，所以我打算在开始之前先将算法原理做一个简单的总结，因为本身该算法就隶属于高等数学的研究范畴，我们对算法的推断和验证过程不做研究，只介绍该算法特点以及应用场景，且个人技术能力有限，不当之处还望勿喷。

2015-08-09 18:40:57 4735

原创 Java网络爬虫

实际的爬虫是从一系列的种子链接开始。种子链接是起始节点，种子页面的超链接指向的页面是子节点（中间节点），对于非html文档，如excel等，不能从中提取超链接，看做图的终端节点网络爬虫的基本知识网络爬虫通过遍历互联网络，把网络中的相关网页全部抓取过来，这体现了爬的概念。爬虫如何遍历网络呢，互联网可以看做是一张大图，每个页面看做其中的一个节点，页面的连接看做是有向边。图的遍历方式分为宽度遍历和深度

2015-08-06 17:18:23 1304

原创写Java须知CPU缓存

CPU，一般认为写C/C++的才需要了解，写高级语言的(Java/C#/pathon…)并不需要了解那么底层的东西。我一开始也是这么想的，但直到碰到LMAX的Disruptor，以及马丁的博文，才发现写Java的，更加不能忽视CPU。经过一段时间的阅读，希望总结一下自己的阅读后的感悟。本文主要谈谈CPU缓存对Java编程的影响，不涉及具体CPU缓存的机制和实现。现代CPU的缓存结构一般分三层，L1，

2015-08-04 20:29:43 1121

原创 MapReduce实现计数

对于非计算机专人士，大多数统计就是计数，而且许多基础的Hadoop作业都包含了计数过程。我们希望从专利引用数据集中得到专利被引用的次数。这同样是计数。

2015-08-04 10:06:08 2148

原创剖析Mapeduce程序

如前所述，MpaReduce程序通过操作键/值对来处理数据，一般形式为 map:(K1,V1)->list<K2,V2>reduce:(K2,list(V2))->list<K3,V3> 上面是这个数据流的一个相当普通的表现，并无特别之处。而在本节，我们将学习更多的细节，涉及一个典型MapReduce程序的每个阶段。下图显示了这个完整过程的高阶试图，我们将逐步遍历这个流程来进一步剖析每一个组成部

2015-08-03 11:08:35 2063

原创 HDFS文件操作

HDFS是一种文件系统，专为MapReduce这类框架下的大规模分布式数据处理而设计。你可以把一个大数据集（比如说100TB）在HDFS中存储为单个文件，而大多数其他的文件系统无力实现这一点。HDFS使你不必考虑这些细节，让你感觉就像在处理单个文件一样。

2015-08-02 20:46:06 2092

原创一种面向高维数据的集成聚类算法

聚类集成已经成为机器学习的研究热点，它对原始数据集的多个聚类结果进行学习和集成，得到一个能较好地反映数据集内在结构的数据划分。很多学者的研究证明聚类集成能有效地提高聚类结果的准确性、鲁棒性和稳定性。本文提出了一种面向高维数据的聚类集成算法。该方法针对高维数据的特点，先用分层抽样的方法结合信息增益对每个特征簇选择合适数量比较重要的特征的生成新的具代表意义的数据子集，然后用基于链接的方法对数据子集上生成

2015-08-01 21:23:24 19613 8

翻译深入理解Hadoop集群和网络

云计算和Hadoop中网络是讨论得相对比较少的领域。本文将着重于讨论Hadoop集群的体系结构和方法，及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。

2015-08-01 14:45:49 1168

XingLiu's Blog