fa124607857-CSDN博客

原创 flink将数据结果写入elasticsearch

一、需求用flink流处理，将结果数据落地到elasticsearch中。二、软件版本flink1.8.0elasticsearch7.8.1kafka_2.11-1.0.0java1.8三、代码1、maven的pom文件 <properties> <compiler.version>1.8</compiler.version> <flink.version>1.8.0</flink.versi

2020-08-25 10:02:23 1718 1

一、需求描述：在linux上写一个shell脚本实现：每次随机写入一批数据到mysql写完一次休眠60s继续吸入二、脚本代码如下：testMysql.sh #!/bin/bash #每次插入数据量的随机数组及数组长度 insertDataCountArray=(100 500 1000 1500 2000) insertDataNum=${#insertDataCountArray[*]} #名字的随机数组及数组长度 nameArray=.

2020-08-06 20:32:40 2093

原创 flume+kafka整合采集数据案例

一、flume简介1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求，通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景1.1.2 运行机制Flume.

2020-07-02 15:45:14 3251

原创增量采集数据到hive分区表中，进行ETL后用Sqoop同步到SqlServer

最近在公司遇到一个数据处理需求：1 客户方SqlServer的表每5分钟会采集到hive中，每5分钟作为一个分区2 编写Hsql脚本读取分区表数据，进行数据转换，存到Hive的结果分区表中，3 将结果数据同步到客户的sqlServer目标表中。其中，没5分钟采集到hive中是另外小组的同事负责的，这里不进行详细说明。2和3部分的编写脚本data.sh如下：该脚本写好后可以使用作业调度系统每五分钟执行一次。 #!/bin/bash #注意：作业调度的服务器系统时间要正确建

2020-06-09 18:34:24 1021

原创 Hadoop集群启动NameNode错误 JAVA.IO.IOEXCEPTION: NAMENODE IS NOT FORMATTED

JAVA.IO.IOEXCEPTION: NAMENODE IS NOT FORMATTED. 新创建的HADOOP集群启动时报错NAMENODE没有启动成功出现的错误:出错的原因:hadoop集群创建完成之后 namenode没有进行初始化解决方法以下均是在主节点操作我的hadoop安装目录是 : /export/install/hadoop-2.6.0-cdh5.14.0/1.先关闭hadoop集群/hadoop的安装目录/sbin/stop-all.sh示例:.

2020-05-21 10:41:14 2789 1

原创网站日志分析整体技术流程及系统架构

网站分析意义网站分析，可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息，并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量，提升网站用户体验，让访客更多的沉淀下来变成会员或客户，通过更少的投入获取最大化的收入。事实上网站分析设计的内容非常广泛，由很多部分组成。每一部分都可以单独作为一个分析项目，如下所示：首先，网站分析是网...

2020-02-28 16:02:58 1209

原创 linux的shell基本编程

linux的shell编程Shell 是一个用 C 语言编写的程序，通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言，又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。 Shell 编程一般指 shell脚本编程，不是指开发 shell 自身。Shell 编程跟 ...

2020-02-27 11:28:19 266

原创 hive的一些优化

Hive的优化优化有很多种方法比如: join sql 数据倾斜数据压缩方式和存储格式表的优化:Join:1）小表Join大表，将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce。selectcount(distinct...

2020-02-24 14:18:21 261

原创 kafka的key为null时如何存储?

kafka的key为null时如何存储?我们都知道，kafka producer发送消息的时候，可以指定key，这个key的作用是为消息选择存储分区，key可以为空，当指定key且不为空的时候，kafka是根据key的hash值与分区数取模来决定数据存储到那个分区，那么当key为null的时候，kafka又是如何存储的呢？可能很多人都会说随机选择一个分区进行存储，但是具体是怎么实现的呢？虽然可...

2020-02-06 15:16:25 3774

转载 Spark工作原理

Spark工作原理Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：1.运行速度快,Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据...

2020-02-03 16:50:33 354

转载大数据项目中如何实现架构选型和集群规划？

大数据项目中如何实现架构选型和集群规划？1.处理流程数据源关系型数据库表：订单，用户，地址。。。日志文件: 页面数据、埋点数据数据采集sqoop、kettle flume shell.数据存储：HDFS、Hive、HBASE数据清洗Mapreduce、hive、sparkCore数据处理（分析）Hive、MapReduce数据应用展示2.架构逻辑（1）...

2020-01-23 11:09:01 796

转载 Hadoop中namenode出现故障的解决方法

Hadoop中Namenode单点故障的解决方案需求：实现namenode元数据的备份，解决namenode单点宕机导致集群不可用的问题。方案描述：当namenode所在服务器宕机的时候，我们可以利用namenode备份的元数据迅速重构新的namenode来投入使用。1.Hadoop本身提供了可利用secondarynamenode的备份数据来恢复namenode的元数据的...

2020-01-18 14:59:58 3779

原创 yarn介绍及调度策略

yarn资源调度1.yarn的介绍： yarn是hadoop集群当中的资源管理系统模块，从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源（主要是服务器的各种硬件资源，包括CPU，内存，磁盘，网络IO等）以及调度运行在yarn上面的各种任务。 yarn核心出发点是为了分离资源管理与作业监控，实现分离的做法是拥有一个全局的资源管...

2020-01-17 15:29:22 1227

原创 reduceByKey和groupByKey的区别:

spark中reduceByKey和groupByKey的区别:打开源码查看英文解释:/*** Merge the values for each key using an associative reduce function. This will also perform* the merging locally on each mapper before sending re...

2020-01-15 10:45:26 517

原创大数据分析工具之Kudu介绍

1. 什么是 Kudu导读 Kudu的应用场景是什么? Kudu在大数据平台中的位置在哪? Kudu用什么样的设计, 才能满足其设计目标? Kudu中有什么集群角色? 1.1. Kudu 的应用场景现代大数据的应用场景例如现在要做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析项目特点数据量大有一个非常重大的挑...

2020-01-07 17:15:14 1741

原创 HBase的协处理器及应用实战

HBase的协处理器http://hbase.apache.org/book.html#cp1、起源Hbase 作为列族数据库最经常被人诟病的特性包括：无法轻易建立“二级索引”，难以执行求和、计数、排序等操作。比如，在旧版本的(<0.92)Hbase 中，统计数据表的总行数，需要使用 Counter 方法，执行一次 MapReduce Job 才能得到。虽然 HBase 在...

2019-12-22 15:01:37 374

原创 Spark广播变量

Spark广播变量目标理解为什么需要广播变量, 以及其应用场景能够通过代码使用广播变量广播变量的作用广播变量允许开发者将一个Read-Only的变量缓存到集群中每个节点中, 而不是传递给每一个 Task 一个副本. 集群中每个节点, 指的是一个机器每一个 Task, 一个 Task 是一个 Stage 中的最小处理单元, 一个 Executo...

2019-12-14 14:10:04 504

原创 SparkRdd 的分区操作及Shuffle原理

RDD 的 Shuffle 和分区分区的作用RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分区数, 分区模式等一一对应分区和 Shuffle 的关系...

2019-12-12 16:55:56 846

原创 kafka常见命令操作及底层原理总结

Kafka集群操作创建topicbin/kafka-topics.sh --create --partitions 3 --replication-factor 2 --topic test --zookeeper node01:2181,node02:2181,node03:2181查看topic bin/kafka-topics.sh --list --zookeeper node...

2019-12-11 17:24:29 131

原创 spark-submit几种提交模式的区别

在spark的提交模式中，有三种提交方式：分别是基于spark集群的standalone模式，基于YARN集群的yarn-client和yarn-cluster三种模式，Standalone,模式提交:spark-submit --master spark://node01:7077 --class scala.WordCount_Online --executor-memory 1g...

2019-12-04 17:55:27 2480

原创 ElasticSearch及全文搜索介绍

一、搜索的介绍搜索是指搜寻检索，指代使用一定手段来检索到我们自己需要的信息，包括从文件当中检索，百度当中检索，网站内部搜索等等全文检索的介绍1、全文检索的需求介绍首先我们谈几个公司，如雷贯耳的：百度、谷歌、维基百科；这些公司都有一个相似性就是门户网站，可以提供我们通过关键字搜索，然后快速的检索出我们想要的信息；【网页百度展示】比如我们检索传智播客，百度后台就会按照这个关键字...

2019-12-02 10:37:21 853

原创 Hdfs的文件读写过程

0 Hdfs简介HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。它们是横跨在多台计算机上的存储系统优点:1 很好的处理超大文件 GB TB PB级别筛分为多个分片进行分布式处理2 运行于廉价的商用机器集群上3 高容错性和高可靠性副本机制...

2019-11-14 08:25:34 400

原创 Hive的UDF函数简单示例开发

Hive函数1.1、内置函数内容较多，见《Hive官方文档》https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1）查看系统自带的函数hive>show functions;2）显示自带的函数的用法hive>desc function upper;3）详细显示自带的...

2019-11-09 15:56:32 1169 3

原创 Storm入门程序wordCount

1.1、storm是什么 storm是twitter公司开源贡献给apache的一款实时流式处理的一个开源软件，主要用于解决数据的实时计算以及实时的处理等方面的问题1.2、storm的特点 Storm是一个开源的分布式实时计算系统，可以简单、可靠的处理大量的数据流。Storm有很多使用场景：如实时分析，在线机器学习，持续计算，分布式RPC，ETL等等。Sto...

2019-11-07 10:46:49 622

原创 sparksql整合hive的环境搭建

SparkSQL主要目的是使得用户可以在Spark上使用SQL，其数据源既可以是RDD，也可以是外部的数据源（比如文本、Hive、Json等）。SparkSQL的其中一个分支就是Spark onHive，也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。SparkSql整合hive就是获取hive表中...

2019-11-01 08:14:01 1408

原创 hbase的rowkey设计原则及热点问题

1.1 hbase数据库介绍1、简介hbase是基于Google BigTable模型开发的，典型的key/value系统。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它是Apache Hadoop生态系统中的重要一员，主要用于海量结构化和半结构化数据存储。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range...

2019-10-31 15:03:52 1238

原创 sparkStreaming介绍及sparkStreaming整合Kafka

1、sparkStreaming概述1.1 什么是sparkStreamingSpark Streaming makes it easy to build scalable fault-tolerant streaming applications.sparkStreaming是一个可以非常容易的构建可扩展、具有容错机制的流式应用程序它就是一个实时处理的程序，数据源源不断的来，然后它就...

2019-10-28 13:46:19 155

原创 spark广播变量

spark广播变量Spark的另一种共享变量是广播变量。通常情况下，当一个RDD的很多操作都需要使用driver中定义的变量时，每次操作，driver都要把变量发送给worker节点一次，如果这个变量中的数据很大的话，会产生很高的传输负载，导致执行效率降低。使用广播变量可以使程序高效地将一个很大的只读数据发送给多个worker节点，而且对每个worker节点只需要传输一次，每次操作时execu...

2019-10-24 17:23:15 391

原创大数据开发之spark介绍及wordcount程序开发

1.1什么是Spark（官网：http://spark.apache.org）Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStream...

2019-10-22 08:34:05 179

原创大数据开发之Hive介绍

1.1、Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更进一步可以说hive就是一个MapReduce的客户端为什么使用Hiv...

2019-10-20 10:50:42 519

转载大数据开发之mapreduce的shuffle过程

概述1、MapReduce 中，mapper 阶段处理的数据如何传递给 reducer 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 Shuffle2、Shuffle: 数据混洗 ——（核心机制：数据分区，排序，局部聚合，缓存，拉取，再合并排序）3、具体来说：就是将 MapTask 输出的处理结果数据，按照 Partitioner 组件制定的规则分发给 Re...

2019-10-19 12:47:22 146

原创 Anaconda+Pycharm搭建数据科学环境

1.Python介绍Python版本Python2.xPython3.x差别：两个版本之间没有关系，需要注意的是两者之间的差别最大的差别：print函数print在Python2是语句，可以有括号也可以没有，在Python3下面是函数，必须加括号Python2默认编码方式是ascii码Python3默认的编码方式是utf-8Python2输入方式input和raw_inp...

2019-10-17 15:42:45 713

原创 Sigmoid函数求导

2019-10-12 13:17:36 1871

原创大数据开发之sqoop数据迁移工具简介

概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql等sqoop1与sqoop2架构对比sqoop1架构sqoop2架构工作机制将...

2019-10-11 08:31:43 314

原创大数据开发之flume高可用的搭建

高可用架构图下面我们搭建一个高可用的Flume NG集群，架构图如下所示：图中，我们可以看出，Flume的存储可以支持多种，这里只列举了HDFS和Kafka（如：存储最新的一周日志，并给Storm系统提供实时日志流）。角色分配Flume的Agent和Collector分布如下表所示：名称　 HOST 角色Agent1 node01 Web Ser...

2019-10-10 08:31:33 404

翻译大数据开发之Druid数据查询

1 Druid数据查询1.1：查询组件介绍在介绍具体的查询之前，我们先来了解一下各种查询都会用到的基本组件，如Filter,Aggregator,Post-Aggregator,Query,Interval等，每种组件都包含很多的细节1.1.1 FilterFilter就是过滤器，在查询语句中就是一个JSON对象，用来对维度进行筛选和过滤，表示维度满足Filter的行是我们需要的数据，类似...

2019-09-28 17:14:11 3093

转载 Spark 数据全局排序实现以及RangePartitioner的使用示例

Spark 数据全局排序实现以及RangePartitioner的使用示例2017年09月13日 17:20:35javartisan阅读数 2612转自链接：https://blog.csdn.net/Dax1n/article/details/77968427使用Java 随机数类随机生成0到Integer.MAX_VALUE之间的10GB文件，然后使用Spark计算框架进行全...

2019-09-27 10:43:14 1406

原创大数据开发之工作流调度器azkaban

2.1 概述azkaban官网：https://azkaban.github.io/2.1.1为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有...

2019-09-26 08:30:20 356

原创大数据开发之数据仓库介绍

1．数据仓库的基本概念数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。...

2019-09-25 07:49:16 862

原创大数据开发之hadoop简介及架构模型

1、hadoop的介绍以及发展历史1.Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2.2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统（GFS），可用于处理海量网页的存储——分布...

2019-09-23 07:53:47 729

jdk18_linux.zip

空空如也