大数据
文章平均质量分 73
LousenJay
https://www.lousenjay.top/
展开
-
zookeeper入门学习
个人博客原文链接简介Zookeeper是一个分布式协调服务,就是为用户的分布式应用程序提供协调服务。 * zookeeper是为别的分布式程序服务的 * zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) * zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… * zookeeper在底...原创 2018-08-22 14:26:04 · 500 阅读 · 0 评论 -
Scala入门详解(二)
个人博客原文链接类类的声明与定义/** * 类的声明与定义 * Scala是一种纯粹的面向对象编程语言,而又无缝地结合了命令式和函数式的编程风格。 * 在面向对象的语言有两个重要的概念:类(class)和对象(object也被称为实例—instance), * 其中类是对象的抽象。可以把类理解为模板,对象才是真正的实体。 */// 1. scala 中每个类都有主构造器...原创 2018-10-09 16:54:25 · 213 阅读 · 0 评论 -
Scala入门详解(三)
个人博客原文链接集合List/** * List * 列表类似于数组,它们所有元素的类型都相同,但是它们也有所不同: * 列表是不可变的,值一旦被定义了就不能改变, * 其次列表具有递归的结构(也就是链接表结构)而数组不是 */object TestList { def main(args: Array[String]): Unit = { // 不可变Li...原创 2018-10-09 16:56:00 · 280 阅读 · 0 评论 -
Scala入门详解(四)
个人博客原文链接IO/** * IO * Scala进行文件写操作,直接用的都是java中的I/O类(java.io.File) */object TestIO { def main(args: Array[String]): Unit = { // 写操作// val writer = new PrintWriter(new File("test.txt" ...原创 2018-10-09 16:57:12 · 175 阅读 · 0 评论 -
Spark入门详解(一)-Spark简介
个人博客原文链接简介Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提供可交互查询方式,提供近实时处理方式,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集(Scala提供一个称为Actor的并行模型,其中Act...原创 2018-11-22 09:34:20 · 566 阅读 · 0 评论 -
Spark环境搭建(多种模式)
个人博客原文链接Spark环境的搭建相比于Hadoop集群的搭建还是比较简单的,而且跟Hadoop集群的搭建流程也很相似,只是没有Hadoop集群那么多的配置文件要修改。本文中,我将详细介绍Spark的本地模式、Standalone模式(伪分布)、Standalone模式(全分布)、Yarn集群模式的搭建。搭建环境:CentOS7+jdk8+spark2.3.2+hadoop2.7Local...原创 2018-11-22 09:37:00 · 1005 阅读 · 0 评论 -
Spark入门详解(二)-Spark运行原理
个人博客原文链接Spark运行过程Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。Spark大致运行流程:1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源(cpu、内存等)2、Cluster manager分配应用程序执行需要的资源,在Work...转载 2018-11-22 09:39:42 · 336 阅读 · 0 评论 -
Spark入门详解(三)-RDD编程
个人博客原文链接RDD简介RDD是弹性分布式数据集,完全弹性的,如果数据丢失一部分还可以重建。有自动容错、位置感知调度和可伸缩性。RDD共包含两种计算方式,一种是transformations转换,一种是actions操作,每种计算方式包含一些常用的方法。注:Transformations转换是Lazy的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到Tran...原创 2018-11-22 09:41:07 · 359 阅读 · 0 评论 -
Spark入门详解(四)-网页排名算子开发实例
个人博客原文链接思路分析:1.此操作需要用到两个pairRDD,第一个pairRDD,key:当前页面,value:当前页面所含链接页面的合集。2.第二个pairRDD,key:当前页面,value:当前页面的权重3.两个pairRDD在循环中根据key进行连接操作,计算每次循环返回后各个页面的权重值4.根据权重值的大小可知页面的排名开发代码:object PageRankTest ...原创 2018-11-22 09:45:07 · 486 阅读 · 0 评论 -
数栈-数据集成学习笔记
个人博客原文链接简介数据集成模块是在各个存储单元之间执行数据交换的通道,具备分布式底层架构,稳定高效、弹性伸缩的特点,致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。为了在DTinsightBatch进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至DTinsightBatch,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL等应用...原创 2018-12-21 14:51:27 · 909 阅读 · 0 评论 -
数栈-离线数据开发学习笔记
个人博客原文链接离线任务开发离线任务开发模块主要是设计数据计算流程,并实现为多个相互依赖的任务,供调度系统自动执行的主要操作页面。对象在数据开发阶段,DTinsightBatch提供了4种对象:任务、脚本、资源和函数。它们之间的项目关系如下图所示:任务:数据开发的主要对象,包含周期属性和依赖关系,是数据计算的主要载体,支持多种类型的任务和节点适应不同场景,详情请参见任务类型。脚本:数...原创 2018-12-21 14:53:41 · 1538 阅读 · 0 评论 -
数栈-数据开发规范
个人博客原文链接术语解释ODS(Operational Data Store):操作型数据,即源数据,指结构与源系统基本保持一致的增量或全量数据。作为DW数据的一个数据准备区,同时又承担基础数据记录历史变化。CDM(Common Data Model):通用数据模型(数据中间层),包含DWD和DWS。DWD(Data Warehouse Detail):数据仓库明细层数据。DWS(Da...原创 2018-12-21 14:55:35 · 1269 阅读 · 0 评论 -
kafka集群搭建
个人博客原文链接Kafka单机模式1.解压tar -xvf kafka_2.11-0.8.0.0.tgz -C /home/hadoop/apps/2.配置环境变量vi ~/.bashrcexport KAFKA_HOME=/opt/software/kafka export PATH=$PATH:$KAFKA_HOME/binsource ~/.bashrc3.启动...原创 2019-01-31 21:58:55 · 358 阅读 · 1 评论 -
从最通俗的角度阐述SaaS,PaaS和IaaS的概念和区别
IaaS, PaaS和SaaS是云计算的三种服务模式,以下分别从官方和通俗两个角度来理解SaaS、PaaS和IaaS的概念以及它们之间的区别。原创 2019-04-22 00:34:31 · 13517 阅读 · 0 评论 -
Scala入门详解(一)
个人博客原文链接简介Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。优点优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。速度快:Scala语言表达能力强,一行代码抵得上Java多行,开发速度快;Scala是静态编译的。...原创 2018-10-09 16:52:34 · 332 阅读 · 0 评论 -
HBase入门详解(三)
个人博客原文链接环境:centos7+hadoop3.0.3+hbase2.0.1+jdk8HBase的MapReduce操作注意事项:* Map继承TableMapper* Reduce继承TableReducer* 最后Reduce输出的value的类型是Mutation* 通过TableMapReduceUtil来设置相关信息实例:统计行键并添加到指定列族public cl...原创 2018-09-25 19:58:40 · 472 阅读 · 0 评论 -
HBase入门详解(一)
个人博客原文链接简介什么是HBaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Googl...原创 2018-09-19 22:22:31 · 558 阅读 · 0 评论 -
HDFS入门详解(一)
个人博客原文链接HDFS简介HDFS(HadoopDistributedFileSystem)即hadoop分布式文件存储系统。 1. 原理 将大文件、大批量文件,分布式存储在大量服务器上,以便采取分而治之的方式对海量数据进行分析。 2. 重要概念 * 文件切块:HDFS中的文件在物理上是分块存储的,block的大小可以通过配置参数自己设置。 * 副本:datan...原创 2018-08-28 18:19:19 · 466 阅读 · 0 评论 -
HDFS入门详解(二)
个人博客原文链接HDFS的java-API操作简介hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个hdfs的访问客户端对象,然后通过该客户端对象操作(增删改查)hdfs上的文件。导入依赖包(maven)利用maven导入hadoop开发相关的依赖包,pom.xml<?xml version="1.0" encoding=...原创 2018-08-28 18:20:38 · 319 阅读 · 0 评论 -
为什么hadoop没有slaves配置文件?
这个问题我昨天折腾了一晚上,上网也没查到什么,最后发现原来是hadoop3.0以后slaves更名为workers。。。。。,直接在workers填写子节点的主机名或ip地址即可。Duang~的一下,搞了一晚上的全分布式集群就跑起来了。。。。有需要配置hadoop集群的同学可以参考我的这几篇博文,有我搭建hadoop客户端,伪分布式集群,全分布式集群的全过程,环境是CentOS+hadoop3...原创 2018-08-21 22:05:37 · 13907 阅读 · 22 评论 -
hadoop3.0单机模式搭建
个人博客原文链接配置客户端连接服务器上的hadoop集群,毕竟自己的机子性能有限,进行一些大规模的计算还是需要到服务器上进行,以下记录了配置客户端的全过程。搭建环境:CentOS7+hadoop3.0.3+jdk8前置需求配置静态ip地址修改主机名配置主机名和ip地址映射关闭防火墙,设置开机不自启动安装并配置好jdk 注:以上操作在笔者之前的Linux相关笔记中均有介绍...原创 2018-08-21 22:12:06 · 1170 阅读 · 0 评论 -
hadoop3.0全分布式集群搭建
个人博客原文链接hadoop3.0的全分布式搭建折腾了好久,因为网上基本上都是2.x的搭建教程,期间有好几个坑比较难弄,不过最后还是都解决了,下面简要记录笔者的搭建过程,以及遇到的坑。搭建环境:CentOS7+hadoop3.0.3+jdk8 集群配置:1台主节点+3台子节点 主节点:hadoop1 子节点:hadoop2 hadoop3 hadoop4前提准备安装scp服...原创 2018-08-21 22:14:53 · 919 阅读 · 0 评论 -
hadoop3.0伪分布式集群搭建
个人博客原文链接搭建环境:CentOS7+hadoop3.0.3+jdk8前提准备安装配置jdk配置静态ip地址修改主机名配置主机名和ip地址映射关闭防火墙,设置开机不自启动 注:以上操作在笔者之前的Linux相关笔记中均有介绍正式搭建集群添加用户hadoop useradd hadoop passwd hadoop创建目录 mkdir -p /ho...原创 2018-08-21 22:17:23 · 600 阅读 · 0 评论 -
MapReduce入门详解(一)
个人博客原文链接简介Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。MapReduce框架的结构一个完整的mapreduce程序在分布式运行时有三类实例进程: 1. MapReduceAp...原创 2018-08-30 09:24:39 · 3229 阅读 · 0 评论 -
MapReduce入门详解(二)
个人博客原文链接MapReduce实践攻略超详细入门级-WordCount问题描述: 统计一个文件中,各种单词出现的次数 思路分析: 1. 在map阶段,对每行数据调用一次map方法,对读取到的每行数据按空格进行切割,将分割得到的每个单词作为key,value的值给定为1传递给reduce 2. 在reduce阶段,从map接收到传递过来的key和value,key值相同的...原创 2018-09-03 11:46:50 · 848 阅读 · 0 评论 -
MapReduce入门详解(三)
个人博客原文链接join操作左外连接(map)-JoinMapSideMR问题描述: 将两个文件中每行的内容拼接到一个文件中 思路分析: 准备好两个map,firstMapper和joinMapper,firstMapper负责获取文件内容,joinMapper负责拼接文件内容。利用Job开启两个firstMapper任务,获取到两个文件的内容,然后再开启一个joinMapp...原创 2018-09-07 09:06:08 · 447 阅读 · 0 评论 -
Hive入门详解(一)
个人博客原文链接简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能安装Hive将hive安装到hadoop的同级目录下tar -zxvf apache-hive-2.3.3-bin.tar.gz -C /home/hadoop/apps/配置环境变量vi ~/.bash_profile增加export HIVE_...原创 2018-09-18 09:02:16 · 290 阅读 · 0 评论 -
Hive入门详解(二)
个人博客原文链接Hive的DDL操作创建表(四种表)内部表创建产品表create table t_product(id int,name string,price double,category string)row format delimitedfields terminated by ','stored as textfile;导入数据(从本地)load data ...原创 2018-09-18 23:10:14 · 407 阅读 · 0 评论 -
Hive入门详解(三)
个人博客原文链接内置函数UDF和内置运算符取随机数rand()select rand() from t_product;求a的阶乘factorial(INT a)select factorial(10) from t_product;求最大值greatest(T v1, T v2, …)select greatest(10,123,53,34,1,23,502,120...原创 2018-09-18 23:11:12 · 329 阅读 · 0 评论 -
HBase入门详解(二)
个人博客原文链接环境:centos7+hadoop3.0.3+hbase2.0.1+jdk8HBase开发测试代码准备 Configuration conf = null; ExecutorService pool = null; Connection conn = null; Admin admin = null; Table table = nul...原创 2018-09-25 11:56:48 · 1134 阅读 · 1 评论 -
常用hive开窗函数示例
简介普通的聚合函数每组(group by)只返回一个值,而开窗函数则可以为每行都返回一个值。简而言之,相当于对查询的结果添加新的一列值,这一列可以是聚合值,也可以是排序号。开窗函数的关键字是over()。准备测试数据建表create table if not exists student_scores(id string,studentId string,language str...原创 2019-05-31 23:48:04 · 1796 阅读 · 0 评论