- 博客(4)
- 资源 (18)
- 收藏
- 关注
原创 SparkSQL与Hive on Spark的比较
简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点Spark可以部署在YARN上Spark原生支持对HDFS文件系统的访问使用
2016-05-18 22:20:08 70816 8
原创 Flume event转化为ES的document过程分析
使用更改后的MultiExecSource + MemoryChannel + ElasticsearchSink 将flume收集到的日志信息发送到es集群中。一条flume event的构成一个flume event由 header + body 构成:/** * Basic representation of a data object in Flume. * Provides acces
2016-05-18 22:18:47 2526
原创 Java使用quartz实现作业调度
在spring boot中使用quartz实现作业调度的功能,简单易用。什么是Quartz?Quartz是Java领域最著名的、功能丰富的、开放源码的作业调度工具,几乎可以在所有的Java应用程序中集成——从小的单机应用到大的电子商务系统。 Quartz可以用来执行成百上千甚至数万的级别的、简单或者复杂的作业调度,一个Job可以执行任意的你所编程的任务。 Quartz调度包括许多企业级功能,如JTA
2016-05-18 22:17:23 3406
原创 Java&Python操作WebHDFS
有用到通过java client或者python client操作HDFS,记录一下简单的代码片段。WebHDFS的认证方式WebHDFS的认证方式有三种:AuthenticationWhen security is off, the authenticated user is the username specified in the user.name query parameter. If t
2016-05-18 22:16:21 3848
庖丁解牛中文分词工具
2014-03-25
简易记事本
2012-04-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人