自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 找出每个id在在⼀天之内所有的波峰与波⾕值

原始数据 sh66688,9:35,29.48sh66688,9:40,28.72sh66688,9:45,27.74sh66688,9:50,26.75sh66688,9:55,27.13sh66688,10:00,26.30sh66688,10:05,27.09sh66688,10:10,26.46sh66688,10:15,26.11sh66688,10:20,26.88sh66688,10:25,27.49sh66688,10:30,26.70sh66688,10:35.

2020-08-08 17:50:22 544 1

原创 用Hive统计某个年阶段连接夺冠的NBA球队

用Hive统计某个年阶段连接夺冠的NBA球队1.原始数据如下:`在这里插入team,year活塞,1990公⽜,1991公⽜,1992公⽜,1993⽕箭,1994⽕箭,1995公⽜,1996公⽜,1997公⽜,1998⻢刺,1999湖⼈,2000湖⼈,2001湖⼈,2002⻢刺,2003活塞,2004⻢刺,2005热⽕,2006⻢刺,2007凯尔特⼈,2008湖⼈,2009湖⼈,2010`保存到本地:创建表`在这里插create table char

2020-08-08 15:09:19 370

原创 MySQL 和 Docker 学习笔记

一、总结简介1.1 准备1.2 搭建VMware 虚拟机下载安装VMware虚拟机https://www.vmware.com/cn.html下载CentOS镜像文件http://mirrors.sohu.com/centos/7/isos/x86_64/CentOS-7-x86_64-Everything-1708.iso配置虚拟机必须要选择桥接网络。如果采用默认的NA...

2020-03-04 17:45:11 390

原创 若泽数据-造数据作业用Python造数据

#coding=UTF-8import random // 引入random函数import time // 引入time 函数// url_paths的数组url_paths=[ "class/112.html", "class/128.html", "class/145.html",...

2019-03-31 12:33:01 264

原创 Spark 面试题目

1.Spark on Yarn 两种方式的区别及工作流程2.Spark 内存管理3.Spark作业资源的设置情况 excutor 个数 memory core driver4.DataFrame/DataSet/RDD的区别及编程5.数据倾斜6.RDD的特点7.Spark 作业执行流程 Count后续做了什么事情8.Spark 中隐式转换的作用:结合Scala来学习9.Spark和...

2019-03-31 12:06:25 216

原创 Flume+Kafla+Spark Streaming链路打通

一、日志生成1、日志生成器开发之产生url和ip信息vim generate_log.pyimport randomurl_paths=[ "class/112.html", "class/128.html", "class/145.html", "class/146.html", "class/131.html", "class/130.html", "learn/8...

2019-03-30 22:21:31 234

原创 Spark 内存管理

1.两种memory的职能execution: 在shuffles,join,sort and aggregation中的计算storage:跨集群内部数据的catche和propagating2.它们之间的角逐,两者共享一个统一区域(M)(1)当excution空闲的时候,storage会使用全部可用的内存,反之亦然(2)Ex会抢掉storage在必要的时候,但是只有全部的stor...

2019-03-30 22:16:02 169

原创 Spark on Yarn

Spark on Yarn 两种方式的区别及工作流程cluster mode: Spark Driver runs inside an application master processmanaged by YARN on the master启动spark 应用程序后 客户端可以关掉集群模式:Spark Driver运行在application master 进程中,而这个进程在集群中受...

2019-03-30 22:11:48 106

原创 Kafka学习

Kafka概述和消息系统类似消息中间件:生产者和消费者。妈妈:生产者你:消费者馒头:数据流、消息 正常情况下: 生产一个 消费一个 其他情况: 一直生产,你吃到某一个馒头时,你卡主(机器故障), 馒头就丢失了 一直生产,做馒头速度快,你吃来不及,馒头也就丢失了 拿个碗/篮子,馒头做好以后先放到篮子里,你要吃的时候去篮子里面取出来吃篮子/框: Kafka 当...

2019-02-21 00:58:19 92

原创 有离线处理和实时计算对比

在大数据的数据处理中:有离线处理和实时计算对比分别在以下四个方面有所区别1. 存储,即数据来源离线一般存储在HDFS,而且数据量大实时计算的话,一般是消息队列,如kalka,需要实时增加/修改 记录过来的某一时间内的某一批次的数据2 处理过程,使用框架离线:MapReduce: Map + Reduce 实时:Spark(DStream/SS) 或者 Storm \Flink等其...

2019-02-21 00:54:43 4744

原创 Flume学习总结

一、概述*Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streamin...

2019-02-21 00:51:08 182

原创 Kafka特点及应用场景

Kafka特点Kalka 作为当下十分流行的分布式消息队列和流处理框架,它性能优越。它有以下几个特点:1. 分布式作为大数据中十分重要的流处理框架,要想提高和保证其性能(如计算、数据传递),分布式是作为任何大数据框架必须具备的天然属性。2. 高性能:其高性能有两方面的体现:一是高吞吐量,可以达到几十万每秒的级别的吞吐量,为什么它有如此高的吞量,很重要的原因是它支持高并发机制;其二是低...

2019-02-21 00:03:58 630

转载 Design Patterns for using foreachRDD

dstream.foreachRDD is a powerful primitive that allows data to be sent out to external systems. However, it is important to understand how to use this primitive correctly and efficiently. Some of the ...

2019-02-19 22:37:19 124

原创 一个模拟双色球彩票的Java代码

package com.spark.hbase;// 创建一个产生数字的App类!!!public class NumberProduceApp { public int getRandomNumberFromArr(int[] arr){ int index= (int)(0+Math.random()*(arr.length-1)); return arr[index...

2019-02-17 21:29:55 4624

原创 JavaAP操作HBase

1. 在IDEA建立一个Java+Maven项目,POM文档如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/X

2019-02-17 00:22:06 202

原创 软件设计七大原则之四--隔离接口原则

隔离接口原则用多个专门的接口,而不使用单一的总接口,客户端不应该依赖它不需要的接口;一个类对一个类的依赖应该建立在最小的接口上;建立单一接口,不要建立庞大臃肿的接口;尽量细化接口,接口的方法尽量少。> - 注意适度原则,一定要适度优点符合高内聚低耦合的设计思想,从而使得类具有很好的可读性,可维护性和可维护性。缺点接口设计得很好,可以使我们的系统具有很好的稳定性、可...

2019-02-16 16:52:33 274

原创 软件设计七大原则和设计模式

七大原则开闭原则依赖倒置原则单一职能原则接口隔离原则迪米特法则里氏替换原则合成复用原则设计模式简单工厂工厂方法模式抽象工厂模式建造者模式单例模式原型模式外观模式装饰者模式适配器模式享元模式组合模式桥接模式代理模式模版模式迭代器模式策略模式解释器模式观察者模式备忘录模式命令模式中介者模式责任链模式访问者模式状态模式先将它们一一列...

2019-02-16 00:03:19 541

原创 软件设计七大原则之三--单一职责原则

单一职责原则定义:不要存在多于一个导致类变更的原因一个类/接口/方法只负责一项职责或职能优点:降低类的复杂度;提高类的可读性,因为类的职能单一,看起来比较有目的性,显得简单;提高系统的可维护性,降低变更程序引起的风险。未完待续。。。。。。。...

2019-02-15 23:54:10 3492 2

原创 软件设计七大原则之二----依赖倒置原则

依赖倒置原则定义:高层模块不应该依赖低层模块,他们都应该依赖其抽象,抽象不应依赖细节,而细节应该依赖抽象,针对抽象编程,而不应该对实现编程。## 优点:减少类与类之间的耦合性;提高系统的稳定性;增加可读性和可维护性;降低修改程序所造成的风险。Coding 来一个例子吧!!!!版本11. 创建一个ICourse类 package com.maomao.design....

2019-02-15 23:21:03 237

原创 软件设计七大原则之一开闭原则

开闭原则定义:对扩展开放,对修改源码关闭,用抽象构建框架,用实现扩展细节;优点:提高系统的扩展性,可利用性、可维护性;核心:面向抽象编程,其它设计原则的基础下面是一个例子1.创建一个抽象类ICoursepackage com.maomao.design.principle.openclose;public interface ICourse { Integer getId...

2019-02-15 21:54:48 581

原创 Hive 常见属性配置

Hive 常见属性配置1.1Hive 数据仓库位置配置1)Default 数据仓库的最原始位置是在 hdfs 上的:/user/hive/warehouse 路径下2)在仓库目录下,没有对默认的数据库 default 创建文件夹。如果某张表属于 default 数据库,直接在数据仓库目录下创建一个文件夹。3)修改 default 数据仓库原始位置(将 hive-default.xml.te...

2019-02-11 11:13:38 182

原创 Spark学习之Join的总结

Spark学习之Join的总结

2019-02-11 11:02:56 117

原创 若泽数据-第五次SparkSQL课程总结(一)

二、MataStore (配置保存在MySQL中)1 show databases;2 use hive and show tables;一般有三十多张表,如上图所示 3 select * from DBS \G; DB_ID:每个表隶属数据库,层级结构4 SELECT * FROM VERSION \G;5 select * from VERSION;6 ...

2019-02-10 12:14:00 854

原创 若泽数据-第一次SparkStreaming课程总结

第一次SparkStreaming总结

2019-02-10 09:29:13 217

转载 Spark性能调优-高级篇

##一、 前言对于使用Spark的大数据研发工程师而言,由于我们硬件基础设施的有限性,而我们的运算数据却可能存在很大的不确定性。因些,熟练掌握Spark各种情况下的性能优化对于大数据工程师而言是十分有必要的。##二、 数据倾斜调优其实,对于大数据处理,数据量大不是什么大问题,而最怕的是数据倾斜;这也可能是我们大数据计算中一个最棘手的问题,此时Spark作业的性能会比期望差很多。数据倾斜调优,...

2019-02-06 09:22:53 166

原创 Java操作HDFSAPI

package com.imooc.bigdata.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;impo...

2019-02-04 11:12:16 385

原创 Hadoop 常用命令

Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MO...

2019-02-04 07:55:36 122

原创 shell 编程学习之find命令总结

find命令总结:常用选项: -name 查找/etc目录下以conf结尾的文件 find /etc -name '*conf' -iname 查找当前目录下文件名为aa的文件,不区分大小写 find . -iname aa -user 查找文件属主为hdfs的所有文件 find . -user hdfs -group 查找文件属组为yarn的所有文件 find . -...

2019-02-04 07:46:54 281

原创 Spark源码编译

对于学习Spark框架的技术人员,学习到一定的程序,有些原来的东西已经不能满足我们的要求,修改源码是我们的必经之路。一、下载源码 wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0.tgz二、解压 tar -xvf spark-2.4.0.tgz -C 当前目录 三、编译3.1 编译的准备,修...

2019-02-03 20:00:09 171

原创 若泽数据第四次SparkCore主要内容总结

若泽数据第四次SparkCore主要内容总结

2019-02-03 16:53:33 154

原创 Hadoop源码编译

前置要求Java 1.8源码下载Maven 下载protobuf 2.5+下载一、安装相关的依赖库(用root或者有sudo权限的用户) sudo yum install -y svn ncurses-devel gcc* sudo yum install -y openssl openssl-devel svn ncurses-devel zlib-devel libtoo...

2019-02-03 11:10:43 142

原创 若泽数据第三次SparkCore总结

1 Repartition和Colasce的区别2 什么是Shuffle3 RDD的特性之一是RDD之间存在一定的依赖,有几种依赖,它们分别是什么4 GroupByKey和reduceByKey的区别5 Combiner预聚合...

2019-02-03 06:52:50 215

原创 若泽数据第一次SparkCore总结

一、RDD主要特点及在源码的体现1.1 RDD主要特点:(1) 被创建的RDD包含一系列的分区,这是它可以并行处理的基础;(2) RDD之间一系列的依赖;(3) 运算每一个分区的函数;(4) Partitioner=> K-V RDDs (RDD是基于哈希分区);(5) 尽量选择好的存储位置来运算每一个分区。1.2 RDD特点主要特点在源码的体现(1)特点一: prot...

2019-02-01 09:19:48 154

原创 Kafka学习

kafka.apache.org消息中间件Flume: 1个进程 source channel sinkKafka: 3个进程 producer broker consumer生产者 服务进程 消费者flume–> kafka(存储) --> spark streaming/flink/结构化流编程: scala语言概念: 主题 topi...

2019-02-01 05:38:41 134

原创 作业:大数据之Sqoop的使用

1 下载sqoopcd ~/software wget http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2 解压 sqooptar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C ~/app/3 配置 sqoop(1)将sqoop目录配置到~/.bash_profile(2)修改配置...

2019-01-31 08:07:16 192

原创 Spark学习之-RDD编程

RDD 编程一、概述RDD是resilient distributed dataset的缩写。创建RDD有两种方法:一种是parallize驱动程序中存在的集合;另一种是引用外部存储系统中的数据集来创建。外部数据源象共享文件系统,HDFS,HBase,或者任何提供Hadoop InputFormat的数据源。1、 Parallelized Collections(并行化集合)并行化集合的创...

2019-01-31 00:09:12 330 1

原创 Spark学习总结之RDD-Spark编程的基石

一 概述概括而言,每一个Spark应用程序包含一个运行在主函数的驱动程序和在集群中运行和执行的各种并行操作。RDD(Resilient Distributed Dataset:弹性分布数据集)是Spark提供的主要抽象概念。那RDD到底是什么呢?它是集群跨节点分区元素的集合,这个集合可以被并行处理。创建RDD的方式有两种:一种是用Hadoop文件系统中或者其它可以支持Hadoop的文件系统中的文...

2019-01-30 11:01:30 97

原创 Spark主要特点

1.Spark的主要特点1.1 速度快Spark 使用DAG 调度器、查询优化器和物理执行引擎,能够在批处理和流数据获得很高的性能。根据官方的统计,它的运算速度是hadoop的100x倍,应该是有一定的条件吧!1.2 使用简单Spark的易用性主要体现在两个方面。一方面,我们可以用较多的编程语言来写我们的应用程序,比如说Java,Scala,Python,R 和 SQL;另一方面,Spa...

2019-01-30 10:00:34 13163 2

原创 Hive企业级调优

1. Fetch 抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如: SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录 下的文件,然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion ...

2019-01-25 21:29:21 92

原创 Hive函数

1系统自定义的函数1)查看系统自带的函数 hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过...

2019-01-25 21:12:12 87

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除