- 博客(10)
- 资源 (3)
- 收藏
- 关注
原创 使用POI将word文档转出HTML
POM.XML配置文件<!--wordToHtml--><dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>3.14</version></...
2018-04-17 16:34:33 397
原创 Cloudera Manager API操作Yarn/Impala队列资源
直接上代码:import java.io.BufferedReader;import java.io.File;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.Authenticator;import java.n
2017-01-04 20:54:30 3021
原创 使用Cloudera Manager API 实现CM中的图表
参考文档见官方文档直接上代码:import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.List;import javax.ws.rs.core.Response;import net.sf.json.JSO
2017-01-04 20:47:02 5651 4
原创 JAVA API调用OOZIE作业运行
不废话直接上代码:import java.io.IOException;import java.security.PrivilegedExceptionAction;import java.util.Properties;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Fil
2017-01-04 20:39:24 6741
原创 搜索引擎选型调研之Flume1.6+Elasticsearch2.3.1
搜索引擎选型调研之Elasticsearch 最近的一个项目中,由于为了满足实时搜索的功能,一直在致力于选择合适的搜索引擎。起初的设计选型是Hbase+solr,用solr做hbase的二级索引,用coporcessor做索引同步。当单纯的对已有数据进行搜索时,solr表现还不错。但由于场景是实时建立索引时,solr会产生io阻塞,查询性能较差。再随着数据量的增加,solr的搜
2016-05-14 13:18:41 2092 1
原创 机场位置用户识别案例分析 --基于SparkMLlib(K-Means)机器学习
机场位置用户识别案例分析--基于SparkMLlib(K-Means)机器学习(一)应用场景简介 网络信令中包含与用户位置相关的实时信息,在经营分析系统中引入网络信令数据,可通过分析客户位置规律,实现基于位置信息的区域业务统计分析。根据网络信令数据的实时特性,可准确地把握营销时机,为客户提供个性化的营销服务,从而提升精细营销服务能力。 Spark在机器学习
2016-04-20 23:30:44 1423 1
原创 基于Spark上的中文分词算法的实现
此篇文章只是一份普通的实验报告,同时会对Jcseg中文分词使用进行分享。实现目的学习编写Spark程序,对中文文档分词词频的统计分析。实现原理实现步骤(1)Jcseg分词官方首页:https://code.google.com/p/jcseg/下载地址:https://code.google.com/p/jcseg/downloads/l
2016-04-07 18:48:29 9921 1
原创 HBase高级特性:通过Coprocessor实现Solr Cloud二级索引
一、概念协处理器分两种类型,系统协处理器可以全局导入region server上的所有数据表,表协处理器即是用户可以指定一张表使用协处理器。HBase的coprocessor分为两类,Observer和EndPoint。其中Observer相当于触发器,EndPoint相当于存储过程。其中Observer的代码部署在服务端,相当于对API调用的代理。另一个是终端(endpoint),动
2016-04-07 18:47:09 2118 1
原创 企业级分布式实时搜索模型研究与实现SorlCloud+HBase+Flume-ng
企业级分布式实时搜索模型研究与实现SorlCloud+HBase+Flume-ng通常我们在电信项目中采用HBase来存储用户终端明细数据等,供前台页面即时查询。HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力。针对HBase的多条件查询也有多种方案,实时搜索已成为信息检索领域的热点问题之一。但是有些方案要么太复杂,要么效率太低
2016-03-30 15:43:21 490
FastDFS 搭建,及其JAVA客户端使用
2018-07-19
CDH5.X Centos安装手册
2018-07-17
基于MVC的客户管理系统
2008-09-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人