使用POI将word文档转出HTML

POM.XML配置文件 <!--wordToHtml--> <dependency> <groupId>org.apache.poi</groupId> &...

2018-04-17 16:34:33

阅读数 128

评论数 0

Cloudera Manager API操作Yarn/Impala队列资源

直接上代码: import java.io.BufferedReader; import java.io.File; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamRea...

2017-01-04 20:54:30

阅读数 1804

评论数 0

使用Cloudera Manager API 实现CM中的图表

参考文档见官方文档 直接上代码: import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.List; import j...

2017-01-04 20:47:02

阅读数 3392

评论数 3

JAVA API调用OOZIE作业运行

不废话直接上代码: import java.io.IOException; import java.security.PrivilegedExceptionAction; import java.util.Properties; import org.apache.hadoop.c...

2017-01-04 20:39:24

阅读数 4003

评论数 0

基于kerberos的hdfs和hbase登录

废话不多说直接上代码:

2017-01-04 20:29:10

阅读数 692

评论数 0

搜索引擎选型调研之Flume1.6+Elasticsearch2.3.1

搜索引擎选型调研之Elasticsearch          最近的一个项目中,由于为了满足实时搜索的功能,一直在致力于选择合适的搜索引擎。起初的设计选型是Hbase+solr,用solr做hbase的二级索引,用coporcessor做索引同步。当单纯的对已有数据进行搜索时,solr表现还不错...

2016-05-14 13:18:41

阅读数 1812

评论数 1

机场位置用户识别案例分析 --基于SparkMLlib(K-Means)机器学习

机场位置用户识别案例分析 --基于SparkMLlib(K-Means)机器学习 (一)应用场景简介         网络信令中包含与用户位置相关的实时信息,在经营分析系统中引入网络信令数据,可通过分析客户位置规律,实现基于位置信息的区域业务统计分析。根据网络信令数据的实时特性,可准确地把握...

2016-04-20 23:30:44

阅读数 864

评论数 1

基于Spark上的中文分词算法的实现

此篇文章只是一份普通的实验报告,同时会对Jcseg中文分词使用进行分享。 实现目的 学习编写Spark程序,对中文文档分词词频的统计分析。 实现原理 实现步骤 (1)Jcseg分词 官方首页:https://code.google.com/p/jcseg/ 下载地址:https:/...

2016-04-07 18:48:29

阅读数 7158

评论数 1

HBase高级特性:通过Coprocessor实现Solr Cloud二级索引

一、概念 协处理器分两种类型,系统协处理器可以全局导入region server上的所有数据表,表协处理器即是用户可以指定一张表使用协处理器。 HBase的coprocessor分为两类,Observer和EndPoint。其中Observer相当于触发器,EndPoint相当于存储过程。其中Ob...

2016-04-07 18:47:09

阅读数 1778

评论数 1

企业级分布式实时搜索模型研究与实现SorlCloud+HBase+Flume-ng

企业级分布式实时搜索模型研究与实现SorlCloud+HBase+Flume-ng 通常我们在电信项目中采用HBase来存储用户终端明细数据等,供前台页面即时查询。HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力。针对HBase的...

2016-03-30 15:43:21

阅读数 314

评论数 0

提示
确定要删除当前文章?
取消 删除