晟翊zzZ-CSDN博客

原创 Flink（二）

Flink集群搭建Flink可以选择的部署方式有：Local、Standalone（资源利用率低）、Yarn、Mesos、Docker、Kubernetes、AWS。Standalone模式安装软件要求Java 1.8.x或更高版本ssh（必须运行sshd才能使用管理远程组件的Flink脚本）集群部署规划节点名称masterworkerzookeeper...

2019-12-29 22:00:24 287

原创 Bigdata_Flink（一）

概述流处理语义At most once（最多一次）：每条数据记录最多被处理一次，潜台词也表明数据会有丢失（没被处理掉）的可能。At least once（最少一次）：每条数据记录至少被处理一次。这个比上一点强的地方在于这里至少保证数据不会丢，至少被处理过，唯一不足之处在于数据可能会被重复处理。Exactly once（恰好一次）：每条数据记录正好被处理一次。没有数据丢失，也没有重复...

2019-12-18 21:00:44 339

原创 Bigdata_内存数据库

MemCached缓存技术什么是MemCachedMemcache是一套开源,高性能的分布式的内存对象缓存系统，目前被许多网站使用以提升网站的访问速度，尤其对于一些大型的、需要频繁访问数据库的网站访问速度提升效果十分显著。Memcache将所有数据存储在内存中，并在内存里维护一个统一的巨大的Hash表，它能存储任意类型的数据，包括图像、视频、文件以及数据库检索的结果等。简单的说就是将数据调...

2019-12-17 21:26:45 804

原创 Kafka（二）

Kafka工作流程分析写入方式producer采用推（push）模式将消息发布到broker，每条消息都被追加（append）到分区（patition）中，属于顺序写磁盘（顺序写磁盘效率比随机写内存要高，保障kafka吞吐率）。分区（Partition）Kafka集群有多个消息代理服务器（broker-server）组成，发布到Kafka集群的每条消息都有一个类别，用主题（topic）来表...

2019-12-15 21:43:54 227

Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2）Kafka最初是由LinkedIn公司开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通...

2019-12-02 22:13:20 221

原创 Bigdata_Elasticsearch

概述什么是搜索百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）。百度 != 搜索1）互联网的搜索：电商网站，招聘网站，新闻网站，各种app2）IT系统的搜索：OA软件，办公自动化软件，会议管理，日程管理，项目管理。搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要...

2019-11-26 22:58:44 521

原创大数据之Spark Streaming调优

减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间：①　数据接收的并行水平通过网络(如kafka，flume，socket等)接收数据需要这些数据反序列化并被保存到Spark中。如果数据接收成为系统的瓶颈，就要考虑并行地接收数据。注意，每个输入DStream创建一个receiver（运行在worker机器上）接收单个数据流。创建多个输入DStream并配置它们可以从源中接收不同...

2019-11-24 21:03:55 217

原创大数据之Spark Streaming（二）

输入DStreams和接收器输入DStreams表示从数据源获取输入数据流的DStreams。在NetworkWordCount例子中，lines表示输入DStream，它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receiver对象相关联，这个Receiver从源中获取数据，并将数据存入内存中用于处理。输入DStreams表示从数据源获取的原始数据流。Spark ...

2019-11-24 20:26:43 245

原创大数据之Spark Streaming

Spark Streaming简介Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高级函数（如map，reduce，join和window）开发的复杂算法进行流数据处理。最后，处理后的数据可以被推送到文件系统，数据库和实时仪表板。而且，您还...

2019-11-21 17:53:31 190

原创 SparkSQL案例

import java.text.SimpleDateFormatimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSession/** * @Autho: Administrator and wind * @Version: 2019/11/19 & 1.0 * * Spark...

2019-11-20 20:42:24 370

原创大数据之SparkSQL优化

SparkSQL性能优化在内存中缓存数据性能调优主要是将数据放入内存中操作。通过spark.cacheTable(“tableName”)或者dataFrame.cache()。使用spark.uncacheTable(“tableName”)来从内存中去除tableDemo案例从Oracle数据库中读取数据，生成DataFrameval oracleDF = spark.read.f...

2019-11-20 20:41:00 391

原创大数据之Spark（三）

Spark SQL基础Spark SQL简介Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。Spark SQL的特点：容易整合（集成）统一的数据访问方式兼容Hive标准的数据连接基本概念：Datasets和DataFramesDataFrameDataFrame是组织成命...

2019-11-17 23:07:15 256

原创 Spark基础编程案例

Spark基础编程案例案例一：求网站的访问量求出访问量最高的两个网页要求显示：网页名称、访问量

2019-11-13 22:20:25 383 1

原创大数据之Spark（二）

Spark的算子RDD基础什么是RDD?RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。RD...

2019-11-11 21:00:26 258

原创大数据之Spark（一）

什么是Spark？官网：http://spark.apache.org我的翻译：Spark是一个针对大规模数据处理的快速通用引擎Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包...

2019-11-10 22:34:15 388

原创 Scala（五）

Scala中的集合1、可变集合和不可变集合可变集合不可变集合：集合从不改变，因此可以安全地共享其引用。甚至是在一个多线程的应用程序当中也没问题。集合的操作：2、列表不可变列表（List）可变列表（LinkedList）：scala.collection.mutable3、序列常用的序列有：Vector和RangeVector是ArrayBuffer的不可...

2019-11-07 22:39:30 202

原创 Java与Scala快排

快排Java快排public class QuitSortJava { /** * * 基准 * 左右哨兵 *数组进行基准分区 * 递归 */ public static void sort(int[] arr, int start, int end){ //判断递归停止条件，右边哨兵小于等于左边哨兵...

2019-11-05 20:58:36 208

原创 Scala（四）

Scala中的trait（特质）trait就是抽象类。trait跟抽象类最大的区别：trait支持多重继承trait Human{ //定义抽象字段 val id : Int val name : String}trait Action{ //定义一个抽象函数 def getActionName() : String} //定义子类class Student...

2019-11-05 15:32:08 161

原创 Scala（三）

映射映射就是Map集合，由一个(key,value)组成。-> 操作符用来创建例如：val scores = Map(“Alice” -> 10,”Bob” -> 3,”Cindy” -> 8)映射的类型分为：不可变Map和可变Map映射的操作获取映射中的值更新映射中的值（必须是可变Map）迭代映射举例：创建一个Map来保存学生的成绩 ...

2019-11-03 17:31:45 330

原创 Scala（二）

Scala函数的参数Scala中，有两种函数参数的求值策略Call By Value：对函数实参求值，且仅求一次Call By Name：函数实参每次在函数体内被用到时都会求值我们来分析一下，上面两个调用执行的过程：一份复杂一点的例子：Scala中的函数参数默认参数代名参数可变参数（1）默认参数当你没有给参数赋值的时候，就使用默认值 scala>...

2019-10-29 18:50:37 275

原创大数据之Scala（一）

Scala语言基础1、Scala简介Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。它也能运行于CLDC配置的Java ME中。目前还有另一.NET平台的实现，不过该版本更新有些滞后。Scala的编译模型（独立编译，动态类加载）与Java和C#一样，所以Scala代码可以调用Ja...

2019-10-25 21:16:19 298

原创运营日志项目分析

日志分析数据情况每行记录有5部分组成：访问者IP、访问时间、访问资源、访问状态（HTTP状态码）、本次访问流量指标KPI1.浏览PV（1）定义：页面浏览量即为PV(Page View)，是指所有用户浏览页面的总和，一个独立用户每打开一个页面就被记录1 次。　　（2）分析：网站总浏览量，可以考核用户对于网站的兴趣，就像收视率对于电视剧一样。但是对于网站运营者来说，更重要的是，每个栏目...

2019-10-25 09:58:59 843

原创大数据之CDH 集群部署

Cloudera Managercloudera manager的概念简单来说，Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件）,使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。cloudera manager的功能1.管理：对集群进行管理，如添加、删除节点等操作。2.监控：监控...

2019-10-19 21:43:28 749

原创大数据之HBase 集成

HBase 集成HBase 与 Hive 的对比HBase与Hive集成使用环境准备因为我们后续可能会在操作Hive的同时对HBase也会产生影响，所以Hive需要持有操作HBase的Jar，那么接下来拷贝Hive所依赖的Jar包（或者使用软连接的形式）。记得还有把zookeeper的jar包考入到hive的lib目录下。#环境变量/etc/profile$ export HBASE...

2019-10-18 15:25:42 420

原创大数据之HBase_MR

官方HBase-MapReduce查看HBase的MapReduce任务的所需的依赖bin/hbase mapredcp执行环境变量的导入$ export HBASE_HOME=/opt/module/hbase-1.3.1$ export HADOOP_CLASSPATH = ``${HBASE_HOME}/bin/hbase mapredcp `运行官方的MapReduce任务–...

2019-10-14 16:24:38 353

原创大数据之HBase_Util

HBase_Util初始化命名空间/** * @author wind * 1、NameSpace ====> 命名空间 * 2、isTable ====> 判断表是否存在 * 3、Region、RowKey、分区键 * 4、createTable ===> 表 */public class HBaseUtil { /** * 初始化...

2019-10-12 21:47:44 272

原创大数据之HBaseAPI

编写HBaseAPI判断表是否存在public class HBASE_API { private static Configuration conf; static{ //使用HbaseConfiguration的单例方法实例化 conf = HBaseConfiguration.create(); /** ...

2019-10-11 17:47:35 128

原创 HBase 表操作读写流程

HBase 表操作创建表hbase(main)> create ‘student’,‘info’hbase(main)> create ‘iparkmerchant_order’,‘smzf’hbase(main)> create ‘staff’,'info’插入数据到表hbase(main) > put ‘student2’,‘1001’,cf1:name’,...

2019-10-02 16:36:41 498

原创 HBaes 部署

HBaes介绍HBase简介HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。大：上亿行、百万列面向列：面向列（簇）的存储和权限控制，列（簇）独立检索稀疏：对于为空(null)的列，并不占用存储空间，因此，表的设计的非常的稀疏HBase的角色HMaster功能：(1) 监控RegionServ...

2019-09-27 17:43:47 303

原创 Azkaban 案例

多job工作流案例创建有依赖关系的多个job描述第一个job：1.job[root@bigdata111 jobs]$ vi 1.jobtype=commandcommand=/opt/module/hadoop-2.8.4/bin/hadoop fs -put /opt/module/datas/word.txt /第二个job：2.job依赖1.job[root@bigdata1...

2019-09-27 13:55:46 128

原创大数据之Azkaban 安装与应用

概述为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数据，我们每天都要对其进行处理，处理步骤如下所示：(1) 通过Ha...

2019-09-25 19:52:52 274

原创 Sqoop 导入 & 参数

Sqoop一些常用命令及参数常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。序号命令类说明1importImportTool将数据导入到集群2exportExportTool将集群数据导出3codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jar...

2019-09-25 17:29:40 879

原创大数据之Sqoop 安装

Sqoop简介Apache Sqoop™是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop于2012年3月孵化出来，现在是一个顶级的Apache项目。请注意，1.99.7与1.4.6不兼容，且没有特征不完整，它并不打算用于生产部署。Sqoop原理**将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapredu...

2019-09-23 17:57:15 169

原创大数据之数据仓库

数据仓库什么是数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库能干什么？年度销售目标的指定，需要根据以往的历史报表进行决策，不能拍脑袋。如何优化业务流程例如：一个...

2019-09-23 17:09:31 588

原创大数据之Hive 调优

Hive调优抓取 FetchFetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老...

2019-09-20 20:11:19 208

原创 Hive分桶、Hive自定义函数、Hive压缩、Hive、存储格式

分桶及抽样查询分桶表数据存储分区针对的是数据的存储路径；分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。先创建分桶表，通过直接导入数据文件的方式(1)创建分桶表create table stu_buck1(id int, n...

2019-09-18 21:00:48 214

原创 Hive查询及 Hive排序

查询https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select全表和特定列查询：全表查询select * from emp;选择特定列查询select empno, ename from emp;注意：（1）SQL 语言大小写不敏感。（2）SQL 可以写在一行或者多行。（3）关键字不能被缩写也不能...

2019-09-17 20:15:41 1093

原创分区和DML操作

分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。案例实操分别创建部门和员工外部表，并向表中导入数据。（1）原始数据（2）建表语句创建部门表create external t...

2019-09-13 18:53:15 243

原创 Hive 常用配置、操作、数据类型及DDL语句。

Hive 常见属性配置1.Hive数据仓库位置配置1.Default数据仓库的最原始位置是在hdfs上的：/user/hive/warehouse路径下2.在仓库目录下，没有对默认的数据库default创建文件夹。如果某张表属于default数据库，直接在数据仓库目录下创建一个文件夹。3.修改default数据仓库原始位置（将hive-default.xml.template如下配置信息拷...

2019-09-12 15:11:58 404

原创 Hive ，MySQL安装与部署

Hive基本概念1.什么是HiveHive：是由Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL/SQL 转化为 MapReduce 程序。Hive 处理的数据储存在 HDFS。Hive 分析数据的底层实现是 MapReduce。执行程序运行在 y...

2019-09-10 20:51:10 570

空空如也

空空如也