大数据
纵死侠骨香
一个致力于发布更多更好文章的大四青年。
展开
-
Yarn资源管理工作流程
一、Yarn的组成ResourceManager:负责处理客户端请求,监控各个节点的资源 ApplicationMaster:申请资源,分配和监控任务 NodeManager:管理自己节点的资源 Container:封装资源(磁盘,内存,CPU,网络)二、Yarn的工作流程...原创 2020-03-26 14:19:36 · 188 阅读 · 0 评论 -
HDFS重点(读写流程)
一、HDFS的组成NameNode 处理读写请求SecondNamenode 帮助namenode合并元数据Datanode 存储真正的数据二、HDFS的读写流程HDFS的读流程1、客户端通过DistributeFileSystem向NameNode请求上传文件2、NameNode查看文件是否存在,倘若没则向客户端响应...原创 2020-03-26 11:11:53 · 190 阅读 · 0 评论 -
MapReduce重点(Map阶段,Reduce阶段,Shuffle阶段)
一、MapReduce的工作流程1、Map阶段(1)读取hdfs上的文件,每个block启动一个maptask,按行读取一个block中的内容。(2)map函数对数据split拆分,得到数组,组成一个键值对<word,1>(3)做分区对应多个reduceTask(4)分区数据,按key分组排序(5)在map端执行小reduce,一个map中输出<key,time...原创 2020-03-26 10:42:04 · 6322 阅读 · 0 评论 -
Hadoop生态体系简单介绍
一、数据来源层1、结构化数据(数据库)2、半结构化数据(日志文件)3、非结构化数据(视频,PPT等)二、数据传输层1、Flume收集日志2、Sqoop数据传递3、Kafka消息队列三、数据存储层1、HDFS分布式文件存储2、HBase非关系数据库四、资源管理层Yarn资源管理五、数据计算层1、MapReduce离线计算(1)Hi...原创 2020-03-26 10:16:58 · 514 阅读 · 0 评论 -
Mahout与机器学习
目录MahoutMahout的特性机器学习实现机器学习的方式1、监督学习(Supervised learning)2、非监督学习(Unsupervised Learning)Mahout(象夫)Apache开源项目,主要用于创建可伸缩的机器学习算法实现了如下几个主流的机器学习算法Recommendation 推荐算法 Classification ...原创 2020-03-21 10:55:44 · 342 阅读 · 0 评论 -
Kafka体系架构详细分解
基本概念Kafka 体系架构Kafka 体系架构包括若干 Producer、若干 Broker、若干 Consumer,以及一个 ZooKeeper 集群。在 Kafka 中还有两个特别重要的概念—主题(Topic)与分区(Partition)。Kafka 中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到 Kafka 集群中的每一条消息都要指定一个主题),...原创 2020-03-20 11:22:50 · 272 阅读 · 0 评论 -
在linux下安装配置使用redis
目录安装:1、通过wget方式直接在linux上下载Rediswget http://download.redis.io/releases/redis-2.6.17.tar.gz2、解压下载的redis-2.6.17.tar.gz 文件tar xzf redis-2.6.17.tar.gz3、进入解压后的文件夹cd redis-2.6.174、编译安装make运行:$ ...原创 2020-02-07 17:59:48 · 128 阅读 · 0 评论 -
基于hive数仓的游戏指标分析
目录一、分析指标数据二、基础层数据处理1、先把全部数据导入到HDFS中2、创建一个外部表,将数据导入到hive中3、分割txt文件中的数据4、取出需要的值,并建表5、检查数据日期三、设计展现层数据四、建立数据中间层五、新建maven工程JDBC连接hive与mysql1、启动hive服务2、向pom文件中导入依赖3、编写java文件六、将数据...原创 2019-11-28 10:09:01 · 1321 阅读 · 0 评论 -
Spark的学习(二)RDD弹性分布式数据集
目录一、概念1、什么是RDD?2、RDD的弹性(1)自动进行内存和磁盘数据存储的切换(2)基于血统的高效容错机制(3)Task,Stage如果失败会自动进行特定次数的重试(4)Checkpoint和Persist可主动或被动触发(5)数据调度弹性(6)数据分区的高度弹性3、RDD的属性4、RDD有什么特点?二、RDD的创建1、由一个已经存在的Sc...原创 2019-11-19 19:13:37 · 1106 阅读 · 0 评论 -
Spark学习(一)Spark基础解析
目录一、概念1、什么是Spark?2、Spark的特点有哪些?3、Spark的架构二、Spark运行流程三、Spark运行原理1、Standalone模式2、Yarn-client模式3、Yarn-cluster模式4、Yarn-client与Yarn-cluster的区别5、Yarn-client与Yarn-cluster的应用场景一、概念1、...原创 2019-11-19 16:16:39 · 286 阅读 · 0 评论 -
Spark之IDEA版单词计数
目录一、导入Maven的相关依赖二、在本地创建需要统计的单词文件三、编写代码四、结果展示一、导入Maven的相关依赖pom.xml<dependencies> <dependency> <groupId>org.apache.spark</groupId> ...原创 2019-11-16 15:31:16 · 683 阅读 · 0 评论 -
Spark的安装和单词计数
目录一、Standalone模式安装1、上传并解压spark安装包2、进入spark安装目录下的conf文件夹3、修改配置文件名称4、修改slave文件,添加work节点:(只写两台从机的节点)5、修改spark-env.sh文件,添加如下配置:6、在sbin目录下的spark-config.sh 文件中加入如下配置:7、分发spark包8、启动二、单词计数...原创 2019-11-15 21:18:14 · 430 阅读 · 0 评论 -
Scala的学习(四)面向对象
目录一、对象创建流程二、包的可见性三、构造器四、面向对象三大特性1、封装案例2、继承1)Scala继承的基本语法2)Scala继承快速入门3)scala子类继承了什么,怎么继承了?4)重写方法5)Scala中类型检查和转换6)Scala中超类的构造7)覆写字段8) 抽象类9)匿名子类3、多态五、伴生对象1、伴生对象的快速入...原创 2019-11-13 22:25:32 · 584 阅读 · 0 评论 -
Scala的学习(三)数据结构
目录一、数组1、定长数组和变长数组2、遍历数组3、数组转化二、元组1、创建元组2、获取元组中的值3、元组的遍历4、将对偶的集合转换成映射5、拉链操作三、集合1、列表List2、集合Set3、映射Map4、队列Queue5、选项Option6、迭代器Iterator四、常用函数1、map、flatmap2、reduce、...原创 2019-11-12 21:35:41 · 218 阅读 · 0 评论 -
Scala的学习(二)基本语法
目录Scala基础1、声明变量2、常用类型3、常用类型结构图4、算数操作符重载5、条件表达式6、块表达式7、循环(1)while表达式(2)for表达式8、调用方法和函数9、定义方法和函数(1)定义方法(2)定义函数(3)函数与方法(4)将方法转换成函数(神奇的下划线)10、闭包11、懒值Scala基础1、声明变量...原创 2019-11-11 22:07:26 · 479 阅读 · 0 评论 -
Scala的学习(一)安装入门
一、概述1、什么是Scala?Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。2、Scala的优点?优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。速度快:Scala语言表达能力强,一行代码抵得上Java多行,开...原创 2019-11-11 16:48:25 · 129 阅读 · 0 评论 -
Kafka集群部署及命令行操作
目录Kafka集群部署1)解压安装包2)修改解压后的文件名称3)在/opt/module/kafka目录下创建logs文件夹4)修改配置文件5)分发安装包6)分别在hadoop102和hadoop103上修改配置文件7)启动集群8)关闭集群Kafka命令行操作1)查看当前服务器中的所有topic2)创建topic3)删除topic4)发送消息...原创 2019-11-08 16:25:07 · 391 阅读 · 0 评论 -
HBase的Shell操作
一、基本操作1.进入HBase客户端命令行[root@hadoop101 hbase-1.3.6]# bin/hbase shell2.查看帮助命令hbase(main):001:0> help3.查看当前数据库中有哪些表hbase(main):002:0> list二、表的操作1.创建表hbase(main):003:0> create '...原创 2019-11-05 15:37:17 · 138 阅读 · 0 评论 -
HBase安装
目录一、Zookeeper正常部署二、 Hadoop正常部署三、HBase的解压四、HBase的配置文件1)hbase-env.sh修改内容:2)hbase-site.xml修改内容:3)、修改regionservers:4)、软连接hadoop配置文件到hbase:五、HBase远程发送到其他节点六、HBase服务的启动1.启动方式1a、同步时...原创 2019-11-05 13:39:14 · 143 阅读 · 0 评论 -
Zookeeper安装
目录分布式安装部署1.集群规划2.解压安装 (1) 解压zookeeper安装包(2)创建zkData(3)重命名zoo_sample.cfg3.配置zoo.cfg文件(1)具体配置(2)配置参数解读4.集群操作(1)创建myid的文件(2)编辑myid文件(4)分别启动zookeeper(5)查看状态分布式安装部署1.集群规划...原创 2019-11-04 20:10:16 · 241 阅读 · 0 评论 -
Hadoop的集群搭建
目录一、虚拟机环境准备二、安装jdk三、安装Hadoop四、集群配置(重点)1.集群部署规划2.配置集群3.配置集群中从节点信息(datanode)4.分发文件五、集群启动常用集群启动停止方式SSH无密登录配置检验:一、虚拟机环境准备1、克隆三台虚拟机 2、修改主机名 /etc/sysconfig/network...原创 2019-11-04 19:48:06 · 219 阅读 · 0 评论 -
数据仓库,数据集市,数据湖
目录一、数据仓库和数据集市的概念二、数据集市的特点三、数据仓库与数据集市的区别四、数据湖的出现出现的原因:数据湖的优点:数据湖架构显著的特点:五、数据仓库和数据湖对比一、数据仓库和数据集市的概念 数据仓库:是一个集成的面向主题的数据集合,设计的目的是支持DSS(决策支持系统)的功能,在数据仓库里,每个数据单元都和特定的时间相关。数...原创 2019-11-03 20:29:24 · 5956 阅读 · 0 评论 -
干货:解码OneData,阿里的数仓之路。
目录一、起因二、背景1)数据标准不统一2)服务业务能力3)计算存储成本4)研发成本三、他山之石——行业内是如何做的?四、阿里的数仓模型体系要如何构建?第一阶段:第二阶段:第三阶段:落地实现A)数据规范定义B)数据模型架构C)研发流程和工具落地实现实施效果一、起因据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4...转载 2019-11-02 14:59:59 · 1364 阅读 · 0 评论 -
Hive数据仓库工具(四)分区和分桶
目录一、分区和分桶的概念分区:分桶:二、分区实现1、创建分区按年创建分区t1:按年月创建分区t2:2、向分区添加数据向年分区t1中添加数据向年月分区t2添加数据3、效果如下年分区:年月分区:三、分桶的实现1、分桶之前要执行命令hive.enforce.bucketing=true;2、要使用关键字clustered by 指定分区依据...原创 2019-11-01 22:34:08 · 697 阅读 · 0 评论 -
Hive数据仓库工具(三)常用命令总结
目录DDL数据定义:一、数据库操作语句:1、创建数据库2、查看数据库3、删除空数据库4、强制删除非空数据库二、表操作语句1、创建多字段表2、查看表3、根据查询结果创建表(查询的结果会添加到新创建的表中)4、根据已经存在的表结构创建表5、查询表的类型6、创建外部表7、向外部表中导入数据8、重命名表9、更新列10、添加列11、删除...原创 2019-10-30 20:48:02 · 372 阅读 · 0 评论 -
Hive数据仓库工具(二)Hive元数据配置到MySql
目录一、配置metastore到mysql1、把mysql-connector-java-5.1.32-bin.jar放到hive的lib目录下;2、把hive-site.xml放到hive的conf目录下【注意修改里面的url、password等】;3、执行hive命令,如果报错,参见如下链接https://blog.csdn.net/qq_41808387/article/...原创 2019-10-30 16:47:15 · 573 阅读 · 0 评论 -
Hive数据仓库工具(一)Hive的安装
目录1、把apache-hive-0.14.0-bin.tar.gz拖到/usr/local下;2、执行tar -zxvf apache-hive-0.14.0-bin.tar.gz 解压缩;3、执行mv apache-hive-0.14.0-bin hive重命名;4、配置环境变量5、执行cp hive-env.sh.template hive-env.sh产生新文件...原创 2019-10-30 14:33:15 · 219 阅读 · 0 评论 -
hadoop之MapReduce字符统计功能
目录一、在pom文件中添加依赖二、WordcountMapper三、WordcountReducer四、WordcountDriver五、打包工程六、将项目工程target下的jar包复制到linux中的Desktop下七、新建hello.txt文件,在HDFS中创建word文件夹将hello上传上去八、启动Hadoop集群九、执行命令十、进行测试...原创 2019-10-28 19:08:14 · 848 阅读 · 0 评论 -
hdfs、tfs、fastdfs、Tachyon的辨析
一、Hdfs概念:Hadoop分布式文件系统.①保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。②运行在廉价的机器上。③适合大数据的处理。多大?多小?HDFS默认会将文件分割成block,128M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中(namenode)。如果小文件太多,那内存的负担会很重架构...转载 2019-10-26 15:02:13 · 1442 阅读 · 0 评论 -
HDFS的读写流程
HDFS写数据流程1、客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查文件是否存在2、NameNode返回是否可以上传3、客户端请求第一个block上传到哪几个DataNode服务器上4、NameNode返回3个DataNode节点,分别为dn1,dn2,dn35、客户端通过FSDataOutputS...原创 2019-10-25 22:20:28 · 136 阅读 · 0 评论 -
大数据及Hadoop的理解
目录一、大数据的特点:二、从Hadoop框架讨论大数据生态 1、概念2、优点3、组成HDFS架构概述:YARN架构简述:MapReduce架构简述:三、大数据技术生态体系四、推荐系统框架图一、大数据的特点:1、大量(Volume)大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的需求,然而...原创 2019-10-25 21:48:48 · 597 阅读 · 0 评论 -
Linux入门(五)Linux之安装hadoop
目录安装hadoop1、把hadoop-2.6.4.tar.gz拖放到/usr/local目录下2、使用命令tar -zxvf hadoop-6.4.tar.gz解压缩,产生文件夹/usr/local/hadoop-6.43、编辑/etc/profile,增加环境变量。记得source /etc/profile4、修改/usr/local/hadoop-2.6.4/etc/ha...原创 2019-10-25 21:07:38 · 507 阅读 · 0 评论 -
Hadoop之HDFS的Shell客户端操作
目录1.基本语法2.命令大全3、常用命令实操(0)启动Hadoop集群(方便后续的测试)(1)-help:输出这个命令参数(2)-ls: 显示目录信息(3)-mkdir:在hdfs上创建目录(4)-moveFromLocal从本地剪切粘贴到hdfs(5)-appendToFile :追加一个文件到已经存在的文件末尾(6)-cat:显示文件内容(7)-t...原创 2019-10-25 20:53:16 · 369 阅读 · 0 评论 -
Linux入门(四)centOS连接MySQL与Navicat连接Linux中的MySql
目录centOS连接MySQL1. 下载rpm包2.安装rpm包3、安装mysql服务端4、首先启动mysql5、接着检查mysql 的运行状态6、修改临时密码6.1 获取MySQL的临时密码6.2 登陆并修改密码7、授权其他机器登陆Navicat连接Linux中的MySQL1、登录centos上的mysql数据库:2、切换到mysql数据库:...原创 2019-10-22 21:12:20 · 994 阅读 · 0 评论 -
Linux入门(二)常用命令其一
目录常用基本命令:1.帮助命令: 1.1、man获得帮助信息 1.2、help获得shell内置命令帮助信息 1.3、常用快捷键2、文件目录类2.1、pwd显示当前目录的绝对路径2.2、ls列出目录的内容2.3、mkdir创建一个新目录2.4、rmdir删除一个空目录2.5、touch创建空文件2.6、cd切换目录2.7、cp复制文件...原创 2019-10-21 21:56:11 · 419 阅读 · 0 评论 -
Linux入门(一)VMWare的安装及JDK的安装
目录一、安装VMWare二、安装CentOS1、引入映像文件2、设置账号密码3、设置虚拟机存储位置4、cpu参数设置5、设置内存6、设置网络7、设置虚拟机8、校验时间9、设置虚拟机的网络VMnet1代表仅主机模式VMnet8代表NAT模式三、安装JDK一、安装VMWare二、安装CentOS1、引入映像文件2、设置账号...原创 2019-10-21 15:30:49 · 448 阅读 · 0 评论