hadoop
大数据技术进阶
这个作者很懒,什么都没留下…
展开
-
hadoop shell 详解
概述 所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。 用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop有一个选项解析框架用于解析一般的选项和运行类。 命令选项 --conf转载 2014-12-17 10:07:16 · 560 阅读 · 0 评论 -
分布式配置中心选型
随着业务的发展、微服务架构的升级,服务的数量、程序的配置日益增多(各种微服务、各种服务器地址、各种参数),传统的配置文件方式和数据库的方式已无法满足开发人员对配置管理的要求:安全性:配置跟随源代码保存在代码库中,容易造成配置泄漏。时效性:修改配置,需要重启服务才能生效。局限性:无法支持动态调整:例如日志开关、功能开关。因此,分布式配置中心应运而生!开源项目关于分布式配置中心,网...原创 2019-10-09 17:49:48 · 1065 阅读 · 0 评论 -
知名大厂如何搭建大数据平台&架构
今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。淘宝大数据平台淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的 Hadoop 大数据平台,比较典型。淘宝的大数据平台基本也是分成三个部分...原创 2019-09-30 11:51:54 · 1871 阅读 · 0 评论 -
CDH权限测试示例
1. 准备测试数据cat/tmp/events.csv 10.1.2.3,US,android,createNote10.200.88.99,FR,windows,updateNote10.1.2.3,US,android,updateNote10.200.88.77,FR,ios,createNote10.1.4.5,US,windows,updateTag原创 2016-10-17 14:54:45 · 2051 阅读 · 1 评论 -
CDH5.7配置kerberos身份认证+sentry权限管理
更多大数据技术干货,欢迎关注“大数据技术进阶”微信公众号。4. 为CDH 5集群添加Kerberos身份验证4.1 安装sentry 1、点击“操作”,“添加服务”; 2、选择sentry,并“继续”;3、选择一组依赖关系...原创 2016-10-17 14:45:47 · 19059 阅读 · 0 评论 -
本地日志数据实时接入到hadoop集群的数据接入方案
1. 概述本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法。供数据接入和集群运维人员参考。1.1. 整体方案Flume作为日志收集工具,监控一个文件目录或者一个文件,当有新数据加入时,收集新数据发送给Kafka。Kafka用来做数据缓存和消息订阅。Kafka里面的消息可以定时落地到HDFS上,也可以用Spark Streaming来做实时处理,然后将处理原创 2015-07-01 14:27:23 · 4543 阅读 · 0 评论 -
调用JAVA API 对 HDFS 进行文件的读取、写入、上传、下载、删除等操作
更多大数据技术干货,欢迎关注“大数据技术进阶”微信公众号。Hadoop文件系统基本的文件系统命令操作, 通过hadoop fs -help可以获取所有的命令的详细帮助文件。Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件系统接口。该类是一个抽象类,通过以下两种静态工厂方法可以过去FileSystem实例:public static ...原创 2016-01-28 16:50:47 · 25427 阅读 · 2 评论 -
hadoop配置文件参数详解
一般来说,hadoop主要有三个默认参数文件,分别为core-default.xml,hdfs-default.xml,mapred-default.xml。其它需要用户配置的参数文件为core-site.xml,hdfs-site.xml,mapred-site.xml,下面分别介绍下相关参数的含义1 core-site.xml[node1 conf]$ cat core-sit转载 2016-01-26 14:57:40 · 3602 阅读 · 0 评论 -
将存储在本地的大量分散的小文件,合并并保存在hdfs文件系统中
import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI; imp原创 2015-02-11 16:38:19 · 1998 阅读 · 0 评论 -
在hdfs上存取xml文件的实现代码
要读取的文件为:/user/hdfs/stdin.xml SK9cohJD4yklcD8dJuZXDA default.test1 要存的文件为:/user/hdfs/stdin.xml SK9cohJD4yklcD8dJuZXDA de原创 2014-12-24 11:13:08 · 930 阅读 · 0 评论 -
Hive on Spark运行环境搭建
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapReduce计算框架来实现,因而在处理速度上不是非常令人满意。由于Spark出色的处理速度,有人已原创 2014-12-04 11:10:56 · 1432 阅读 · 0 评论 -
hive数据导入方法
可以通过多种方式将数据导入hive表1.通过外部表导入用户在hive上建external表,建表的同时指定hdfs路径,在数据拷贝到指定hdfs路径的同时,也同时完成数据插入external表。例如:编辑文件test.txt$ cat test.txt 1 hello2 world3 test4 case原创 2014-12-02 16:46:33 · 995 阅读 · 0 评论 -
知识图谱在大数据中的应用
随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。在一项任务中,只要有关系分析的需求,知识图谱就“有可能”派的上用场。说到关系的重要性,我们先来看一个有意思的理论,六度分隔理论(英语:Six Deg...原创 2019-10-10 13:33:58 · 2318 阅读 · 0 评论