fa124607857
码龄11年
关注
提问 私信
  • 博客:60,167
    60,167
    总访问量
  • 43
    原创
  • 821,285
    排名
  • 11
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:海南省
  • 加入CSDN时间: 2014-07-19
博客简介:

fa124607857的博客

查看详细资料
个人成就
  • 获得39次点赞
  • 内容获得6次评论
  • 获得154次收藏
创作历程
  • 15篇
    2020年
  • 34篇
    2019年
  • 4篇
    2017年
成就勋章
TA的专栏
  • Linux
    1篇
  • JavaSe
    3篇
  • 大数据云计算
    47篇
  • SQL
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

flink将数据结果写入elasticsearch

一、需求用flink流处理,将结果数据落地到elasticsearch中。二、软件版本flink1.8.0elasticsearch7.8.1kafka_2.11-1.0.0java1.8三、代码1、maven的pom文件 <properties> <compiler.version>1.8</compiler.version> <flink.version>1.8.0</flink.versi
原创
发布博客 2020.08.25 ·
1747 阅读 ·
0 点赞 ·
1 评论 ·
5 收藏

linux上shell脚本数据插入mySql

一、需求描述:在linux上写一个shell脚本实现:每次随机写入一批数据到mysql写完一次休眠60s继续吸入二、脚本代码如下:testMysql.sh #!/bin/bash #每次插入数据量的随机数组及数组长度 insertDataCountArray=(100 500 1000 1500 2000) insertDataNum=${#insertDataCountArray[*]} #名字的随机数组及数组长度 nameArray=.
原创
发布博客 2020.08.06 ·
2145 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

flume+kafka整合采集数据案例

一、flume简介1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求,通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景1.1.2 运行机制Flume.
原创
发布博客 2020.07.02 ·
3293 阅读 ·
3 点赞 ·
0 评论 ·
19 收藏

增量采集数据到hive分区表中,进行ETL后用Sqoop同步到SqlServer

最近在公司遇到一个数据处理需求:1 客户方SqlServer的表每5分钟会采集到hive中,每5分钟作为一个分区2 编写Hsql脚本读取分区表数据,进行数据转换,存到Hive的结果分区表中,3 将结果数据同步到客户的sqlServer目标表中。其中,没5分钟采集到hive中是另外小组的同事负责的,这里不进行详细说明。2和3部分的编写脚本data.sh如下:该脚本写好后可以使用作业调度系统每五分钟执行一次。 #!/bin/bash #注意:作业调度的服务器系统时间要正确 建
原创
发布博客 2020.06.09 ·
1035 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hadoop集群启动NameNode错误 JAVA.IO.IOEXCEPTION: NAMENODE IS NOT FORMATTED

JAVA.IO.IOEXCEPTION: NAMENODE IS NOT FORMATTED. 新创建的HADOOP集群启动时报错NAMENODE没有启动成功出现的错误:出错的原因:hadoop集群创建完成之后 namenode没有进行初始化解决方法以下均是在主节点操作我的hadoop安装目录是 : /export/install/hadoop-2.6.0-cdh5.14.0/1.先关闭hadoop集群/hadoop的安装目录/sbin/stop-all.sh示例:.
原创
发布博客 2020.05.21 ·
2814 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏

网站日志分析整体技术流程及系统架构

网站分析意义网站分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。事实上网站分析设计的内容非常广泛,由很多部分组成。每一部分都可以单独作为一个分析项目,如下所示:首先,网站分析是网...
原创
发布博客 2020.02.28 ·
1241 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

linux的shell基本编程

linux的shell编程Shell 是一个用 C 语言编写的程序, 通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言,又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。 Shell 编程一般指 shell脚本编程,不是指开发 shell 自身。Shell 编程跟 ...
原创
发布博客 2020.02.27 ·
274 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive的一些优化

Hive的优化 优化有很多种方法 比如: join sql 数据倾斜 数据压缩方式和存储格式表的优化:Join:1)小表Join大表,将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用Group让小的维度表(1000条以下的记录条数)先进内存。在map端完成reduce。selectcount(distinct...
原创
发布博客 2020.02.24 ·
270 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

kafka的key为null时如何存储?

kafka的key为null时如何存储?我们都知道,kafka producer发送消息的时候,可以指定key,这个key的作用是为消息选择存储分区,key可以为空,当指定key且不为空的时候,kafka是根据key的hash值与分区数取模来决定数据存储到那个分区,那么当key为null的时候,kafka又是如何存储的呢?可能很多人都会说随机选择一个分区进行存储,但是具体是怎么实现的呢?虽然可...
原创
发布博客 2020.02.06 ·
3819 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

Spark工作原理

Spark工作原理Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:1.运行速度快,Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据...
转载
发布博客 2020.02.03 ·
360 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据项目中如何实现架构选型和集群规划?

大数据项目中如何实现架构选型和集群规划?1.处理流程数据源关系型数据库表:订单,用户,地址。。。日志文件: 页面数据、埋点数据数据采集sqoop、kettle flume shell.数据存储:HDFS、Hive、HBASE数据清洗Mapreduce、hive、sparkCore数据处理(分析)Hive、MapReduce数据应用展示2.架构逻辑(1)...
转载
发布博客 2020.01.23 ·
804 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Hadoop中namenode出现故障的解决方法

Hadoop中Namenode单点故障的解决方案需求:实现namenode元数据的备份,解决namenode单点宕机导致集群不可用的问题。方案描述:当namenode所在服务器宕机的时候,我们可以利用namenode备份的元数据迅速重构新的namenode来投入使用。1.Hadoop本身提供了可利用secondarynamenode的备份数据来恢复namenode的元数据的...
转载
发布博客 2020.01.18 ·
3855 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

yarn介绍及调度策略

yarn资源调度1.yarn的介绍:​ yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。 yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管...
原创
发布博客 2020.01.17 ·
1247 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

reduceByKey和groupByKey的区别:

spark中reduceByKey和groupByKey的区别:打开源码查看英文解释:/*** Merge the values for each key using an associative reduce function. This will also perform* the merging locally on each mapper before sending re...
原创
发布博客 2020.01.15 ·
524 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据分析工具之Kudu介绍

1. 什么是 Kudu导读 Kudu的应用场景是什么? Kudu在大数据平台中的位置在哪? Kudu用什么样的设计, 才能满足其设计目标? Kudu中有什么集群角色? 1.1. Kudu 的应用场景现代大数据的应用场景例如现在要做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析项目特点 数据量大 有一个非常重大的挑...
原创
发布博客 2020.01.07 ·
1769 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

HBase的协处理器及应用实战

HBase的协处理器http://hbase.apache.org/book.html#cp1、 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在...
原创
发布博客 2019.12.22 ·
380 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Spark广播变量

Spark广播变量目标 理解为什么需要广播变量, 以及其应用场景 能够通过代码使用广播变量 广播变量的作用广播变量允许开发者将一个Read-Only的变量缓存到集群中每个节点中, 而不是传递给每一个 Task 一个副本. 集群中每个节点, 指的是一个机器 每一个 Task, 一个 Task 是一个 Stage 中的最小处理单元, 一个 Executo...
原创
发布博客 2019.12.14 ·
533 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkRdd 的分区操作及Shuffle原理

RDD 的 Shuffle 和分区分区的作用RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分区数, 分区模式等一一对应分区和 Shuffle 的关系...
原创
发布博客 2019.12.12 ·
861 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

kafka常见命令操作及底层原理总结

Kafka集群操作创建topicbin/kafka-topics.sh --create --partitions 3 --replication-factor 2 --topic test --zookeeper node01:2181,node02:2181,node03:2181查看topic bin/kafka-topics.sh --list --zookeeper node...
原创
发布博客 2019.12.11 ·
136 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark-submit几种提交模式的区别

在spark的提交模式中,有三种提交方式:分别是基于spark集群的standalone模式,基于YARN集群的yarn-client和yarn-cluster三种模式,Standalone,模式提交:spark-submit --master spark://node01:7077 --class scala.WordCount_Online --executor-memory 1g...
原创
发布博客 2019.12.04 ·
2508 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏
加载更多