![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据入门
AIxiaojiangshi
这个作者很懒,什么都没留下…
展开
-
大数据企业学习篇01之---Linux的那些事
1.##shell的变量 **变量的命名**:变量名必须以**字母或者下划线开头**,后面可以跟**数字、字母、下划线**,**任何其他字符**都标志变量的结束。 变量名关于大小写**敏感**。 **变量的类型**:变量可分为**本地变量**和**环境变量**,**本地变量**只在创建它的shell程序中有用,**环境变量**则在shell中的所有用户进程中有效,也被称为**全局变量原创 2017-10-30 17:46:48 · 186 阅读 · 0 评论 -
大数据企业学习篇06----Oozie详解
一、Oozie是什么?有什么用? Oozie是工作流调度框架 *工作流 import -> hive ->export 按照不同的业务编排 *调度 *作业/任务 定时执行 *事件触发执行 *时间 *数据集二、Hadoop的调度框架*Linux cr原创 2017-12-20 19:55:53 · 366 阅读 · 0 评论 -
大数据企业学习篇03_2-----hive 深入
一、hive数据库操作 创建数据库 create database if not exists db_hive_02 ; 删除数据库 drop database if exists db_hive_02 ; drop database if exists db_hive_02 cascade;//级联删除 使用数据库 use db_myhive_02; 显示数据库 show原创 2017-12-12 23:04:54 · 173 阅读 · 0 评论 -
大数据企业学习篇02_1------hadoop初识
一.Hadoop 2.x概述1.hadoop的来源 Hadoop的产生主要来源于Google的三篇论文,如下: GFS ——-> HDFS MapReduce ————>MapReduce BigTable ———–>Hbase2.hadoop是什么 简言之,Hadoop是大规模数据处理,主要是存储、计算、资源调度等功能。http://hadoop.apach原创 2017-11-22 23:10:45 · 298 阅读 · 0 评论 -
大数据企业学习篇05----flume初识
一、flume架构<1>Flume is a distributed, reliable, and availableservice for efficiently collecting, aggregating, and moving large amounts of log data. <2>It has a simple and flexible architecture based on原创 2017-12-20 13:41:41 · 222 阅读 · 0 评论 -
大数据企业学习篇03_1------hive 初识
一、hive是什么?<1>hive是基于Hadoop的一个数据仓库工具,可以将结构化数据映射成一张表,并提供类SQL查询查询功能。 注意:基于Hadoop的一个数据仓库工具? *使用HDFS存储 *使用MapReduce计算 使用HQ原创 2017-12-11 20:20:09 · 260 阅读 · 0 评论 -
大数据企业学习篇02_2------hadoop深入
一.HDFS架构及启动过程 namenode: <1>单一节点,负责管理文件系统的命名空间以及客户端对文件的访问。(注意:文件的元数据操作包括打开,关闭,重命名文件及文件夹等) <2>文件操作,namenode负责文件的元数据操作,datanode负责文件的读写请求。与文件内容相关的数据流不经过namenode,只会询问它与哪个datanode联系,否则namenode会成为系统的瓶颈 <3原创 2017-12-11 11:41:27 · 207 阅读 · 0 评论 -
大数据企业学习篇04-----Sqoop浅析
一.hdfs文件来源于哪里?海量数据如何存储到hdfs?现实数据来源两个方面 * RDBMS(Oracle,MySQL,DB2…) -> sqoop(SQL to HADOOP) * 文件(apache,nginx日志数据) -> Flume(实时抽取数据)二、Sqoop概述架构<1>连接RDBMS与Hadoop的桥梁 *把RDBMS数据库的数原创 2017-12-18 15:49:13 · 269 阅读 · 0 评论 -
大数据企业学习篇02_3-------hadoop高级
一.搭建分布式集群应该注意的问题<1>集群搭建完成以后,需要进行基准测试,是为了测试集群的性能。 监控集群企业主要用Cloudera,Cloudera Manager * 部署安装集群 * 监控集群 * 配置同步集群 * 预警。。。。。<2>Centos复制克隆虚拟机,虚拟网卡变成了eth原创 2017-12-08 22:38:03 · 217 阅读 · 0 评论 -
大数据企业学习篇03_3------hive 高级
一、hive的压缩<1>企业中使用比较多的是Snappy <2>设置:set mapreduce.map.output.compress=true set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec <3>注意事项: 可以减少磁盘IO 可以减少网络IO 压缩算法必须是可分割二、hi原创 2017-12-13 23:22:49 · 319 阅读 · 0 评论