大数据云计算
fa124607857
这个作者很懒,什么都没留下…
展开
-
flink将数据结果写入elasticsearch
一、需求用flink流处理,将结果数据落地到elasticsearch中。二、软件版本flink1.8.0elasticsearch7.8.1kafka_2.11-1.0.0java1.8三、代码1、maven的pom文件 <properties> <compiler.version>1.8</compiler.version> <flink.version>1.8.0</flink.versi原创 2020-08-25 10:02:23 · 1697 阅读 · 1 评论 -
flume+kafka整合采集数据案例
一、flume简介1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求,通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景1.1.2 运行机制Flume.原创 2020-07-02 15:45:14 · 3217 阅读 · 0 评论 -
增量采集数据到hive分区表中,进行ETL后用Sqoop同步到SqlServer
最近在公司遇到一个数据处理需求:1 客户方SqlServer的表每5分钟会采集到hive中,每5分钟作为一个分区2 编写Hsql脚本读取分区表数据,进行数据转换,存到Hive的结果分区表中,3 将结果数据同步到客户的sqlServer目标表中。其中,没5分钟采集到hive中是另外小组的同事负责的,这里不进行详细说明。2和3部分的编写脚本data.sh如下:该脚本写好后可以使用作业调度系统每五分钟执行一次。 #!/bin/bash #注意:作业调度的服务器系统时间要正确 建原创 2020-06-09 18:34:24 · 998 阅读 · 0 评论 -
Hadoop集群启动NameNode错误 JAVA.IO.IOEXCEPTION: NAMENODE IS NOT FORMATTED
JAVA.IO.IOEXCEPTION: NAMENODE IS NOT FORMATTED. 新创建的HADOOP集群启动时报错NAMENODE没有启动成功出现的错误:出错的原因:hadoop集群创建完成之后 namenode没有进行初始化解决方法以下均是在主节点操作我的hadoop安装目录是 : /export/install/hadoop-2.6.0-cdh5.14.0/1.先关闭hadoop集群/hadoop的安装目录/sbin/stop-all.sh示例:.原创 2020-05-21 10:41:14 · 2758 阅读 · 1 评论 -
网站日志分析整体技术流程及系统架构
网站分析意义网站分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。事实上网站分析设计的内容非常广泛,由很多部分组成。每一部分都可以单独作为一个分析项目,如下所示:首先,网站分析是网...原创 2020-02-28 16:02:58 · 1189 阅读 · 0 评论 -
linux的shell基本编程
linux的shell编程Shell 是一个用 C 语言编写的程序, 通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言,又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。 Shell 编程一般指 shell脚本编程,不是指开发 shell 自身。Shell 编程跟 ...原创 2020-02-27 11:28:19 · 246 阅读 · 0 评论 -
hive的一些优化
Hive的优化 优化有很多种方法 比如: join sql 数据倾斜 数据压缩方式和存储格式表的优化:Join:1)小表Join大表,将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用Group让小的维度表(1000条以下的记录条数)先进内存。在map端完成reduce。selectcount(distinct...原创 2020-02-24 14:18:21 · 249 阅读 · 0 评论 -
kafka的key为null时如何存储?
kafka的key为null时如何存储?我们都知道,kafka producer发送消息的时候,可以指定key,这个key的作用是为消息选择存储分区,key可以为空,当指定key且不为空的时候,kafka是根据key的hash值与分区数取模来决定数据存储到那个分区,那么当key为null的时候,kafka又是如何存储的呢?可能很多人都会说随机选择一个分区进行存储,但是具体是怎么实现的呢?虽然可...原创 2020-02-06 15:16:25 · 3727 阅读 · 0 评论 -
Spark工作原理
Spark工作原理Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:1.运行速度快,Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据...转载 2020-02-03 16:50:33 · 340 阅读 · 0 评论 -
大数据项目中如何实现架构选型和集群规划?
大数据项目中如何实现架构选型和集群规划?1.处理流程数据源关系型数据库表:订单,用户,地址。。。日志文件: 页面数据、埋点数据数据采集sqoop、kettle flume shell.数据存储:HDFS、Hive、HBASE数据清洗Mapreduce、hive、sparkCore数据处理(分析)Hive、MapReduce数据应用展示2.架构逻辑(1)...转载 2020-01-23 11:09:01 · 785 阅读 · 0 评论 -
Hadoop中namenode出现故障的解决方法
Hadoop中Namenode单点故障的解决方案需求:实现namenode元数据的备份,解决namenode单点宕机导致集群不可用的问题。方案描述:当namenode所在服务器宕机的时候,我们可以利用namenode备份的元数据迅速重构新的namenode来投入使用。1.Hadoop本身提供了可利用secondarynamenode的备份数据来恢复namenode的元数据的...转载 2020-01-18 14:59:58 · 3716 阅读 · 0 评论 -
yarn介绍及调度策略
yarn资源调度1.yarn的介绍: yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。 yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管...原创 2020-01-17 15:29:22 · 1206 阅读 · 0 评论 -
reduceByKey和groupByKey的区别:
spark中reduceByKey和groupByKey的区别:打开源码查看英文解释:/*** Merge the values for each key using an associative reduce function. This will also perform* the merging locally on each mapper before sending re...原创 2020-01-15 10:45:26 · 499 阅读 · 0 评论 -
大数据分析工具之Kudu介绍
1. 什么是 Kudu导读 Kudu的应用场景是什么? Kudu在大数据平台中的位置在哪? Kudu用什么样的设计, 才能满足其设计目标? Kudu中有什么集群角色? 1.1. Kudu 的应用场景现代大数据的应用场景例如现在要做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析项目特点 数据量大 有一个非常重大的挑...原创 2020-01-07 17:15:14 · 1709 阅读 · 0 评论 -
HBase的协处理器及应用实战
HBase的协处理器http://hbase.apache.org/book.html#cp1、 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在...原创 2019-12-22 15:01:37 · 352 阅读 · 0 评论 -
Spark广播变量
Spark广播变量目标 理解为什么需要广播变量, 以及其应用场景 能够通过代码使用广播变量 广播变量的作用广播变量允许开发者将一个Read-Only的变量缓存到集群中每个节点中, 而不是传递给每一个 Task 一个副本. 集群中每个节点, 指的是一个机器 每一个 Task, 一个 Task 是一个 Stage 中的最小处理单元, 一个 Executo...原创 2019-12-14 14:10:04 · 479 阅读 · 0 评论 -
SparkRdd 的分区操作及Shuffle原理
RDD 的 Shuffle 和分区分区的作用RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分区数, 分区模式等一一对应分区和 Shuffle 的关系...原创 2019-12-12 16:55:56 · 829 阅读 · 0 评论 -
kafka常见命令操作及底层原理总结
Kafka集群操作创建topicbin/kafka-topics.sh --create --partitions 3 --replication-factor 2 --topic test --zookeeper node01:2181,node02:2181,node03:2181查看topic bin/kafka-topics.sh --list --zookeeper node...原创 2019-12-11 17:24:29 · 115 阅读 · 0 评论 -
spark-submit几种提交模式的区别
在spark的提交模式中,有三种提交方式:分别是基于spark集群的standalone模式,基于YARN集群的yarn-client和yarn-cluster三种模式,Standalone,模式提交:spark-submit --master spark://node01:7077 --class scala.WordCount_Online --executor-memory 1g...原创 2019-12-04 17:55:27 · 2448 阅读 · 0 评论 -
ElasticSearch及全文搜索介绍
一、搜索的介绍搜索是指搜寻检索,指代使用一定手段来检索到我们自己需要的信息,包括从文件当中检索,百度当中检索,网站内部搜索等等全文检索的介绍1、全文检索的需求介绍首先我们谈几个公司,如雷贯耳的:百度、谷歌、维基百科;这些公司都有一个相似性就是门户网站,可以提供我们通过关键字搜索,然后快速的检索出我们想要的信息;【网页百度展示】比如我们检索传智播客,百度后台就会按照这个关键字...原创 2019-12-02 10:37:21 · 843 阅读 · 0 评论 -
Hdfs的文件读写过程
0 Hdfs简介HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。它们是横跨在多台计算机上的存储系统优点:1 很好的处理超大文件 GB TB PB级别 筛分为多个分片 进行分布式处理2 运行于廉价的商用机器集群上3 高容错性和高可靠性 副本机制...原创 2019-11-14 08:25:34 · 391 阅读 · 0 评论 -
Hive的UDF函数简单示例开发
Hive函数1.1、内置函数内容较多,见《Hive官方文档》https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1)查看系统自带的函数hive>show functions;2)显示自带的函数的用法hive>desc function upper;3)详细显示自带的...原创 2019-11-09 15:56:32 · 1145 阅读 · 3 评论 -
Storm入门程序wordCount
1.1、storm是什么 storm是twitter公司开源贡献给apache的一款实时流式处理的一个开源软件,主要用于解决数据的实时计算以及实时的处理等方面的问题1.2、storm的特点 Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。Sto...原创 2019-11-07 10:46:49 · 604 阅读 · 0 评论 -
sparksql整合hive的环境搭建
SparkSQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如文本、Hive、Json等)。SparkSQL的其中一个分支就是Spark onHive,也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。SparkSql整合hive就是获取hive表中...原创 2019-11-01 08:14:01 · 1398 阅读 · 0 评论 -
hbase的rowkey设计原则及热点问题
1.1 hbase数据库介绍1、简介hbase是基于Google BigTable模型开发的,典型的key/value系统。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它是Apache Hadoop生态系统中的重要一员,主要用于海量结构化和半结构化数据存储。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range...原创 2019-10-31 15:03:52 · 1217 阅读 · 0 评论 -
sparkStreaming介绍及sparkStreaming整合Kafka
1、sparkStreaming概述1.1 什么是sparkStreamingSpark Streaming makes it easy to build scalable fault-tolerant streaming applications.sparkStreaming是一个可以非常容易的构建可扩展、具有容错机制的流式应用程序它就是一个实时处理的程序,数据源源不断的来,然后它就...原创 2019-10-28 13:46:19 · 150 阅读 · 0 评论 -
spark广播变量
spark广播变量Spark的另一种共享变量是广播变量。通常情况下,当一个RDD的很多操作都需要使用driver中定义的变量时,每次操作,driver都要把变量发送给worker节点一次,如果这个变量中的数据很大的话,会产生很高的传输负载,导致执行效率降低。使用广播变量可以使程序高效地将一个很大的只读数据发送给多个worker节点,而且对每个worker节点只需要传输一次,每次操作时execu...原创 2019-10-24 17:23:15 · 372 阅读 · 0 评论 -
大数据开发之spark介绍及wordcount程序开发
1.1什么是Spark(官网:http://spark.apache.org)Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStream...原创 2019-10-22 08:34:05 · 170 阅读 · 0 评论 -
大数据开发之Hive介绍
1.1、Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端为什么使用Hiv...原创 2019-10-20 10:50:42 · 503 阅读 · 0 评论 -
大数据开发之mapreduce的shuffle过程
概述1、MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle2、Shuffle: 数据混洗 ——(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并 排序)3、具体来说:就是将 MapTask 输出的处理结果数据,按照 Partitioner 组件制定的规则分发 给 Re...转载 2019-10-19 12:47:22 · 140 阅读 · 0 评论 -
Anaconda+Pycharm搭建数据科学环境
1.Python介绍Python版本Python2.xPython3.x差别:两个版本之间没有关系,需要注意的是两者之间的差别最大的差别:print函数print在Python2是语句,可以有括号也可以没有,在Python3下面是函数,必须加括号Python2默认编码方式是ascii码Python3默认的编码方式是utf-8Python2输入方式input和raw_inp...原创 2019-10-17 15:42:45 · 700 阅读 · 0 评论 -
Sigmoid函数求导
原创 2019-10-12 13:17:36 · 1860 阅读 · 0 评论 -
大数据开发之scala操作hbase的工具类
pom文件 核心依赖<dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>1.2.1</v...原创 2019-08-24 13:04:44 · 1146 阅读 · 0 评论 -
Phoenix整合hbase
1 什么是Phoenix?phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询你的HBase数据。Phoenix的团...翻译 2019-07-11 18:27:02 · 586 阅读 · 0 评论 -
Hive-Hbase练习之统计用户历史消费金额
需求假定Hive的person表存储用户当天消费的金额信息,HBase的table2表存储用户历史消费的金额信息。现person表有记录name=1,account=100,表示用户1在当天消费金额为100元。table2表有记录key=1,cf:cid=1000,表示用户1的历史消息记录金额为1000元。基于某些业务要求,要求开发Spark应用程序实现如下功能:根据用户名累计用户的历...原创 2019-07-15 18:37:31 · 976 阅读 · 0 评论 -
sparkRdd算子的练习
启动spark-shell 进行测试:spark-shell --master spark://node1:7077练习1:map、filter//通过并行化生成rddval rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10))//对rdd1里的每一个元素乘2然后排序val rdd2 = rdd1.map(_ * 2)....原创 2019-06-10 16:35:33 · 806 阅读 · 0 评论 -
大数据之sparkSql学习之原理,DataFrame,DataSet及idea代码开发
sparkSql学习之原理,DataFrame,DataSet及idea代码开发1、课程目标1、掌握sparksql原理2、掌握DataFrame和DataSet数据结构和使用方式3、掌握sparksql的应用程序开发2、sparksql概述2.1 sparksql前世今生shark是专门为spark准备的大规模数据仓库系统shark继承了hive大且复杂的代码,同时它也依赖...原创 2019-06-15 13:03:43 · 261 阅读 · 1 评论 -
大数据之sparkStreaming
目标1、掌握SparkStreaming原理和架构2、掌握DStream常用的操作3、掌握SparkStreaming整合flume4、掌握SparkStreaming整合kafka(★★★★★)2、sparkStreaming概述2.1 什么是sparkStreamingSpark Streaming makes it easy to build scalable fault...翻译 2019-06-19 18:15:24 · 277 阅读 · 0 评论 -
idea中maven工程无法创建scala class的解决办法
原因一:没有添加scala sdk解决:file=>project structure =>Global Libraries,添加scala-sdk:没有scala sdk的可以去网上下载。再检查一下.iml文件是否添加了scala sdk,没有的话加上:<orderEntry type="library" name="scala-sdk-2.11.8" l...原创 2019-08-21 21:27:38 · 1405 阅读 · 0 评论 -
大数据开发之druid介绍
1:druid介绍1.1 druid是什么Druid的母公司MetaMarket在2011年以前也是Hadoop的拥趸者,但是在高并发环境下,Hadoop并不能对数据可用性以及查询性能给出产品级别的保证,使得MetaMarket必须去寻找新的解决方案,当尝试使用了各种关系型数据库以及NoSQL产品后,他们觉得这些已有的工具都不能解决他们的“痛点”,所以决定在2011年开始研发自己的“轮子”...翻译 2019-09-08 16:49:53 · 2402 阅读 · 0 评论