大数据开发
大数据学习的相关笔记
无敌的黑星星
努力的去写代码
展开
-
hive学习推荐书籍+官方网址
参考书籍:《Hive编程指南》Hive--官方参考文档:1.用户手册https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation2.管理员手册https://cwiki.apache.org/confluence/display/Hive/Home#Home-AdministrationDocum...转载 2019-03-07 09:24:29 · 4327 阅读 · 0 评论 -
Storm学习(一)---storm的安装及简单介绍
1.何为storm Apache Storm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流,实时处理Hadoop为批处理所做的工作。风暴很简单,可以与任何编程语言一起使用,并且使用起来很有趣!Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等。风暴很快:一个基准测试表示每个节点每秒处理超过一百万个元组。它具有可扩展性,容...原创 2019-02-26 16:39:01 · 873 阅读 · 0 评论 -
Hbase学习(二)---hbase的shell
1,web界面http://192.168.146.137:16010/master-stat2. 查看服务器状态status ‘hadoop04’3.查看当前有那些表listrowkey行键,timestamp时间戳,cell单元格:数据存放位置,column Familly列族,column 列4. 创建表create ‘表名’,‘列族’全表扫描:scan ‘表...原创 2019-02-10 21:29:01 · 338 阅读 · 0 评论 -
Hadoop学习(十二)MapReduce的案列(对一个用户流量的使用量作分析并排序和自定义分区)
接着上一篇博客,我们对其数据进行全局排序和自定义分区1.mapper类package com.tiger.FlowSortMapper;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.ha...原创 2019-01-24 22:20:34 · 253 阅读 · 0 评论 -
hadoop
http://www.cnblogs.com/LeftNotEasy/archive/2011/08/27/why-map-reduce-must-be-future-of-distributed-computing.html原创 2018-12-04 16:51:18 · 118 阅读 · 0 评论 -
为什么Hadoop将一定会是分布式计算的未来?
前言: 很久没有写写博客了,之前主要是换工作,耽误了很多的时间,让人也变得懒散,不想花大时间来写东西。另外就是也确实没有什么自己都觉得有意思的东西拿来写 写,对一般的知识什么的,我比较倾向于往evernote上面记笔记。不过最近对于Hadoop看得比较多,对它的发展也比较关心,最近了解得越多,也就 越相信Hadoop的未来,这里写一篇文章与大家分享分享,为什么我相信Hadoop一定是分布式计...转载 2018-12-04 16:47:48 · 452 阅读 · 0 评论 -
分布式系统漫谈一 —— Google三驾马车: GFS,mapreduce,Bigtable
分布式系统漫谈一 —— Google三驾马车: GFS,mapreduce,Bigtable 谈到分布式系统,就不得不提Google的三驾马车:Google fs[1],Mapreduce[2],Bigtable[3]。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文。而且,Yahoo资助的Hadoop也有按照这三篇论文的开源Java实现:Hadoop对应...原创 2018-12-04 16:37:07 · 527 阅读 · 0 评论 -
当我说要做大数据工程师时他们都笑我,直到四个月后……
申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学。前言:一、背景介绍 二、大数据介绍正文:一、大数据相关的工作介绍 二、大数据工程师的技能要求 三、大数据学习规划 四、持续学习资源推荐(书籍,博客,网站) 五、项目案例分析(批处理+实时处理)前言一、背景介绍本人目前...转载 2018-11-26 08:05:07 · 858 阅读 · 0 评论 -
史上最详细的Hadoop环境搭建
https://gitbook.cn/books/5954c9600326c7705af8a92a/index.html原创 2018-10-28 18:23:28 · 130 阅读 · 0 评论 -
阿里云Apache日志数据格式
阿里云数据格式原创 2018-11-19 09:13:30 · 409 阅读 · 0 评论 -
大数据技能修炼的个人道场
大数据技术火热而且火爆,学习大数据的课程和资料也泛滥如潮,而大数据研发环境又不是随便就可以搭建起来的,如何有一个自己随时可用的大数据修炼道场呢?网上有很多hadoop单机版的搭建教程,但大多是基础组件,如果想窥探Hadoop 的整个生态系统,并建立一个人的大数据环境,从而修炼大数据的各种技术,我觉得非 HDP 的Sandbox 莫属了。 HDP 的Sandbox 是一个基于虚拟机的单节点h...转载 2018-11-19 08:58:19 · 219 阅读 · 0 评论 -
Hadoop学习笔记(一):零Linux基础安装hadoop过程笔记
http://www.cnblogs.com/syveen/archive/2013/05/08/3068044.html原创 2018-11-14 14:27:36 · 173 阅读 · 0 评论 -
Java和大数据结合学习(2)
抽象类1.abstract声明;为什么接口的对象可以指向实例化对象呢?接口1.接口不能实例化,但是接口的对象可以指向实现类的对象。2.接口内的方法默认为public abstract,所以不能被实例化,3.接口其实就是为了实现多继承。 多态对于多态,可以总结以下几点: 一、使用父类类型的引用指向子类的对象;二、该引用只能调用父类中定义的方法和...原创 2018-11-01 22:21:04 · 319 阅读 · 0 评论 -
Java和大数据的结合学习(1)
一.Javase的学习string ,stringbuffer ,stringbulider 包装类 randrom函数和randrom类 final,成员内部类,局部内部类,静态内部类,匿名内部类,内部类的继承 异常的捕获,处理,输出以及抛出异常和运行时的异常 集合类 i/o输入输出流 class和反射 泛型和枚举 多线程 数据库 网络编程 二。大数据的学习 ...原创 2018-10-29 23:44:38 · 440 阅读 · 0 评论 -
Hbase学习(十一)---habse的读写流程
1.hbase的架构图详解(列式存储的非关系型数据库)hbase是大型分布式数据库,缺少很多RDBMS特性, 如列类型,第二索引,触发器,高级查询语言等。但是HBase 有许多特征同时支持线性化和模块化扩充。hbase集群通过增加regionserver服务器的数量,存储容量和处理事务的速度都有了很大的提升。2.hbase的特性: 3.什么时候使用hbase? 1....原创 2019-02-24 21:34:38 · 406 阅读 · 0 评论 -
Hbase学习(十)---habse的MapReduce
业务逻辑:将一个表的数据通过MapReduce,输出到另一张表中import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.io.Immut...原创 2019-02-24 15:48:58 · 178 阅读 · 0 评论 -
Hbase学习(八)---Cell存储不同版本的数据
cell是单元格,存储具体数据的。 hbase中的cell 是按版本来存储的,每个cell都有各种版本的数据,所以当update一个cell中的数据的时候,其实是网cell的末尾追加一个版本的数据,而update之前的数据依然是存在的,这和insert一个新的数据没有任何的区别,每个family都可以设置每个cell要保留的版本数量,默认是3,由VERSIONS决定。 当使用get或者sca...原创 2019-02-24 10:28:18 · 1586 阅读 · 0 评论 -
Hbase学习(七)---Rowkey的设计
- rowkey长度原则rowkey是一个二进制码流,可以是任意字符串,最大长度 64kb ,实际应用中一般为10-100bytes,以 byte[] 形式保存,一般设计成定长。 建议越短越好,不要超过16个字节,原因如下: 数据的持久化文件HFile中是按照KeyValue存储的,如果rowkey过长,比如超过100字节,1000w行数据,光rowkey就要占用100*1000w=1...原创 2019-02-24 09:50:40 · 185 阅读 · 0 评论 -
Hbase学习(五)---Hbase的架构详解
一、什么是HBas HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价的PC Server上搭建大规模结构化存储集群。 HBase是Google BigTable的开源实现,与Google BigTable利用GFS作为其文件存储系统类似,HBase利用Hadoop HDFS作为其文件存储系统; Google运行M...转载 2019-02-24 09:43:49 · 484 阅读 · 0 评论 -
Hbase学习(六)---hbase的预分区设置
1.在创建表的时候设置分区(负无穷到-----正无穷)create 'user','info','partition','SPLITS'=>['101','102','103',104','105']2.如果知道hbase数据表的key的分布情况,就可以在建表的时候对hbase进行region的预分区。这样做的好处是防止大数据量插入的热点问题,提高数据插入的效率。背景:HB...转载 2019-02-22 17:37:29 · 1515 阅读 · 0 评论 -
Hbase学习(四)---hbase 的下载,maven依赖,以及官网文档
Hbase的配置机器依赖目录目录Hbase的配置机器依赖目录1.下载tar和src: https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.官网参考文档:https://hbase.apache.org/book.html3.hbase的配置分布式基本配置3.1其他属性值配置4.分布式集群reionserver...原创 2019-02-22 17:14:04 · 2747 阅读 · 0 评论 -
案例:恒丰银行——大数据实时流处理平台
恒丰银行于2016年1月完成了传统数据仓库向大数据平台数据仓库的迁移,以新的数据仓库平台为基础,结合行内的通用文件传输平台、统一调度平台,规范了源数据系统的数据报送,梳理构建了新的数据模型,大数据平台解决了传统数仓在批量数据处理能力的不足,在相关任务上体验到了从数小时到十几分钟的提升。大数据平台解决了大数据特征中四个V的大数据量(Volume)的处理,我们还需要引入实时处理技术能覆盖数据多样性...转载 2019-02-19 14:42:57 · 908 阅读 · 0 评论 -
Hbase学习(三)---hbase的API使用
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import java.io.IOException;import ...原创 2019-02-10 21:30:50 · 257 阅读 · 0 评论 -
Hbase学习(一 )---简介及安装
1简介Apache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable: Chang等人的结构化数据分布式存储系统。正...原创 2019-02-10 21:09:56 · 210 阅读 · 0 评论 -
Azkaban学习(一)---简介及使用
Azkaban概述Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题。我们有需要按顺序运行的工作,从ETL工作到数据分析产品。特点:1)给用户提供了一个非常友好的可视化界面->web界面2)非常方便的上传工作流-》打成压缩包3)设置任务间的关系4)权限设置-》删库到跑路5)模块化6)随时停止和启动任务7)可以查看日志记录与...原创 2019-02-08 22:56:04 · 302 阅读 · 0 评论 -
Sqoop学习(一)---sqoop的简介及用法
Sqoop概述1)官网http://sqoop.apache.org/2)场景传统型缺点,分布式存储。把传统型数据库数据迁移。Apache Sqoop(TM)是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具 。Sqoop安装部署1)下载安装包2)解压tar -zxvf .tar3)修改配置vi sqoop-env.shexp...原创 2019-02-08 22:54:18 · 246 阅读 · 0 评论 -
Flume学习(一)---简介
一,简介Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。它使用简单的可扩展数据模型,允许在线分析应用程序。二, 组成部分source:数据源:产生数据流,同时source将产生的数据流传输到channel channel:传输通道 用于桥接sou...原创 2019-02-08 22:51:04 · 225 阅读 · 0 评论 -
Hive学习(三)---hive的DML,DLL以及hive的优化
DDL数据定义1)创建数据库-》查看数据库show databases;-》创建数据库create database hive_db;-》创建数据库标准写法create database if not exist db_hive;-》创建数据库指定所在hdfs路径create database hive_db1 location '/hive_db';2)修改数据库-》查看...原创 2019-02-08 22:31:47 · 344 阅读 · 0 评论 -
MySQL学习(一)---mysql的数据类型
MySQL 5.0 以上的版本: 1、一个汉字占多少长度与编码有关: UTF-8:一个汉字=3个字节 GBK:一个汉字=2个字节 2、varchar(n) 表示 n 个字符,无论汉字和英文,Mysql 都能存入 n 个字符,仅是实际字节长度有所区别 3、MySQL 检查长度,可用 SQL 语言来查看: select LENGTH(fieldname) from tab...原创 2019-02-08 21:06:59 · 179 阅读 · 0 评论 -
Hive学习(二)---hive的表操作
###hive的基本操作1.查看数据库:show databases;2.创建数据库:create database db1;3.创建数据库的标准写法:create database if not exists db2;4.创建数据库指定的hdfs路径:create database db3 location ‘/hive_db’;5.查看数据库结构:desc database db1;...原创 2019-02-02 23:43:29 · 240 阅读 · 0 评论 -
HIve学习(一)简介以及Hive的安装
一,蜂房的简介1.APACHE HIVE TMApache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到配置单元。 数据计算:MapReduce分布式计算,难度大 :hive使用sql语句,简化开发,减小学习成本2.优缺点...原创 2019-02-02 16:32:52 · 407 阅读 · 0 评论 -
Hadoop学习(十八)---用zookeeper的API 监听单节点和路径
一,单节点监听package zookeeperTest;import java.io.IOException;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org.ap...原创 2019-02-01 00:34:54 · 260 阅读 · 1 评论 -
Hadoop学习(十七)---zookeeper客户端命令以及API操作
一,客户端命令(1)启动客户端zkCli.sh(2)查看帮助help(3)查看当前znode所包含的内容ls /(4)创建节点create /hunterhenshuai 18(5)创建短暂znodecreate -e /itstar hunter(6)创建带序号znodecreate -s /bigdata hunter(7)创建短暂带序号create -e -s...原创 2019-01-31 23:46:22 · 202 阅读 · 0 评论 -
Hadoop学习(十五)---hadoop 的数据压缩
1.Hadoop的三个阶段HDFS阶段分布式文件系统 Mapreducer阶段分布式编程框架 yarn阶段 mr阶段的运行资源调度框架 2.Hadoop的数据压缩技术在mr阶段要进行大量的数据运输,压缩技术大大减轻了数据传输的压力。压缩技术提高了网络带宽和磁盘空间的效率,节省资源,也是mr的优化策略,通过对压缩编码对mapper或者reducer数据传输进行数据的压缩,以减少磁盘...原创 2019-01-30 23:05:05 · 234 阅读 · 0 评论 -
Hadoop学习(十三)----源码分析InputFormat,RecordRead及其实现类
1.类图平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门用于读取普通文件的FileInputFormat,用来读取数据库的DBInputFo...转载 2019-01-28 22:07:54 · 380 阅读 · 0 评论 -
Hadoop学习(十六)---zookeeper的简介和配置安装以及命令行
一,zookeeper1.官方文档官方网站:https://zookeeper.apache.org/ Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。 什么是ZooKeeper? ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要...原创 2019-01-30 22:38:29 · 196 阅读 · 0 评论 -
Hadoop学习(十四)---数据在mr的整个变化流程图示
原创 2019-01-30 00:28:03 · 313 阅读 · 0 评论 -
Hadoop学习(十一)MapReduce的案列(对一个用户流量的使用量作分析)以及小文件的优化方式。
一,mapper类package FlowCountTestMapper;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;/** * @aut...原创 2019-01-23 19:55:45 · 432 阅读 · 0 评论 -
Hadoop(十)---在写MapReduce时未导入yarn的依赖包导致的错误!
错误截图解决方法:在项目中导入yarn的jar包,重新运行,OK。原创 2019-01-22 16:38:19 · 404 阅读 · 0 评论 -
Hadoop学习(九)---MapReduce的简单应用(Wordcount)并且对其在数据传输阶段进行优化(combiner)
一.整个应用的逻辑MR的三个阶段:Mapper Reducer Driver 1.用户自定义mapper类要继承父类Mapper 2.Mapper的输入数据的kv 对形式 3.重写Mapper的map方法(加入业务逻辑) 4.mapper的数据输出kv对形式 5.map()方法(maptask)对每个<k,v>调用一次。 1....原创 2019-01-22 09:33:43 · 273 阅读 · 0 评论