自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

鸭梨的博客

输出每一天

  • 博客(508)
  • 收藏
  • 关注

原创 Presto为什么快

架构Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生成执行计划,分发执行任务给Worker节点执行。Worker节点负责实际执行查询任务。Worker节点启动后向Discovery Server服务注册,Coordinator从Discovery Server获得可以正常工作的Wo

2021-01-26 19:33:41 2

原创 kafka 生产者batch.size与linger.ms参数

Kafka需要在吞吐量和延迟之间取得平衡,可以通过下面两个参数控制.batch.size当多个消息发送到相同分区时,生产者会将消息打包到一起,以减少请求交互. 而不是一条条发送批次的大小可以通过batch.size 参数设置.默认是16KB较小的批次大小有可能降低吞吐量(批次大小为0则完全禁用批处理)。一个非常大的批次大小可能会浪费内存。因为我们会预先分配这个资源。例子比如说发送消息的频率就是每秒300条,那么如果比如batch.size调节到了32KB,或者64KB,是否可以提升发送消息

2021-01-26 14:12:53 14

原创 kafka性能优化入门

当我们谈论 Kafka 性能调优时,需要考虑很少的配置参数。因此,为了提高性能,最重要的配置是控制磁盘刷新速率的配置。此外,我们可以根据组件划分这些配置。因此,让我们先谈谈Producer。因此,在生产者方面需要注意的最重要的配置是CompressionBatch sizeSync or Async而且,在消费者方面,重要的配置是Fetch size虽然,当我们考虑批处理大小时,总是会困惑多大batch size是最佳的。我们可以说,大批量大小可能是伟大的高吞吐量,它伴随着延迟问题。这意味

2021-01-26 13:50:00 14

原创 Apache Sqoop性能调整

Sqoop 是 Apache 基础提供的一种工具,在大数据世界中通常用于异构关系数据库 (RDBMS) 和 Hadoop 分布式文件系统 (HDFS) 之间的导入-导出数百万条记录。这种数据传输可能导致不同的加载时间,从几分钟到几个小时不等。此方案是全世界数据工程师在引擎盖下查看微调设置的情况。性能调整的目标是在更短的时间内加载更多数据,从而提高效率并减少网络超时时数据丢失的机会。通常,Sqoop 的性能调整可以通过:控制并行性控制数据传输过程控制并行性Sqoop 适用于在Hadoop 中实现的

2021-01-25 11:20:13 26

原创 Hadoop SequenceFile存储格式入门

SequenceFile本质上是一种二进制文件格式,类似key-value存储,通过map/reducer的input/output format方式生成。文件内容由Header、Record/Block、SYNC标记组成,根据压缩的方式不同,组织结构也不同,主要分为Record组织模式和Block组织模式。参考Hadoop小文件存储方案 - ballwql - 博客园https://www.cnblogs.com/ballwql/p/8944025.html...

2021-01-23 17:42:58 29

原创 hdfs合并小文件测试

# 创建测试文件夹hdfs dfs -mkdir /merge# 上传两个文件hdfs dfs -put 1.txt /mergehdfs dfs -put 2.txt /merge# 合并测试,注意合并之前的文件不会被删除hdfs dfs -cat /merge/*.txt | hdfs dfs -appendToFile - /merge/large.txt

2021-01-23 17:32:33 10

原创 flume hdfs sink 文件滚动策略

一般使用hdfs sink都会采用滚动生成文件的方式,hdfs sink滚动生成文件的策略有:基于时间基于文件大小基于hdfs文件副本数(一般要规避这种情况)基于event数量基于文件闲置时间基于时间配置项:hdfs.rollInterval默认值:30秒说明:如果设置为0表示禁用这个策略基于文件大小和event数量策略配置项:文件大小策略:hdfs.rollSizeevent数量策略:hdfs.rollCount默认值:文件大小策略:1024字节,也就是1KBevent数

2021-01-23 16:57:44 13

原创 yum repolist命令

显示所有仓库[root@mypc01 soft]# yum repolist all已加载插件:fastestmirrorLoading mirror speeds from cached hostfile * base: mirrors.163.com * epel: epel.01link.hk * extras: mirrors.ustc.edu.cn * updates: mirrors.ustc.edu.cn源标识

2021-01-23 14:20:13 32 1

原创 yum常用命令

列出所有可更新的软件清单命令:yum check-update更新所有软件命令:yum update仅安装指定的软件命令:yum install <package_name>仅更新指定的软件命令:yum update <package_name>列出所有可安裝的软件清单命令:yum list删除软件包命令:yum remove <package_name>查找软件包命令:yum search 清除缓存命令:yum cle..

2021-01-23 14:08:30 4

原创 Linux wget命令入门

Linux系统中的wget是一个下载文件的工具,它用在命令行下。案例比如下载一个repo文件,多次执行命令会生成副本[root@mypc01 soft]# wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo正在保存至: “docker-ce.repo.2”[root@mypc01 soft]# ll-rw-r--r-- 1 root root 2640 3月 16 2020 docker-ce.

2021-01-23 14:01:30 45 1

原创 互联网广告行业介绍

起源及概念起源:随着信息技术的发展与普及、智能移动终端的迅猛发展。概念:互联网广告就是通过网络广告平台在网络上投放广告。网络优势及表现形式优势:可以追踪、研究用户的偏好,这是互联网相对传统媒体营销的优势,也是其精准营销的基础。这几乎是互联网的天然优势—— 比起传统媒体,每个 IP 背后的网民的上网行为、浏览习惯、注册的个人信息,都可通过技术手段获取、挖掘,通过对上述内容的长期积累和深度分析,广告商便有机会深入了解用户行为和喜好,按照每个用户的行为特点、地域、兴趣爱好等挑选最匹配的广告信息。例如,一个

2021-01-23 10:40:57 38

原创 spark 读取elasticsearch数据

添加依赖<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-hadoop</artifactId> <version>6.8.7</version></dependency>案例测试import com.hm.util.SparkHe

2021-01-23 10:00:36 17

原创 elasticsearch 之index API

ES提供了多种操作数据的方式,其中较为常见的方式就是RESTful风格的API。利用Postman发起HTTP请求(当然也可以在命令行中使用curl命令)。比如 用命令行创建index,index名为demo$ curl -X PUT http://localhost:9200/demo{"acknowledged":true,"shards_acknowledged":true,"index":"demo"}也可以在创建时指定副本数量PUT /my-index-000001{ "se

2021-01-22 19:32:39 14

原创 spark写入数据到elasticsearch

本例中将DataFrame写入ES,之后利用kibana进行统计展示.import com.hm.util.SparkHelperimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object Test { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkHelper.getSparkSession val op

2021-01-22 18:59:13 17

原创 kiban可视化入门

前提已经安装好kiban进入webuihttp://node01:5601/点击左上角图标选择添加样例数据进去的话会看到一个仪表盘,是官方示例做好的.然后可以看一下每个图表是怎么做的,比如向查看下面这个图的做法可以点击 可视化,之后选择图表进入各坐标轴含义如下在这里可以设置各个坐标的字段以及聚合方式总结kiban可以实现数据的可视化...

2021-01-22 17:20:14 28

原创 全文搜索引擎 Elasticsearch 入门概念

基本概念Node 与 ClusterElastic 本质上是一个分布式数据库,允许多台服务器协同工作,每台服务器可以运行多个 Elastic 实例。单个 Elastic 实例称为一个节点(node)。一组节点构成一个集群(cluster)。IndexElastic 会索引所有字段,经过处理后写入一个反向索引(Inverted Index)。查找数据的时候,直接查找该索引。所以,Elastic 数据管理的顶层单位就叫做 Index(索引)。它是单个数据库的同义词。每个 Index (即数据库)的名

2021-01-22 16:06:42 24

原创 atlas编译报错

[ERROR] Failed to execute goalorg.apache.maven.plugins:maven-remote-resources-plugin:1.5:process(default) on project atlas-gra phdb-janus: Errorresolving project artifact: Failure to transfercom.sleepycat:je:pom:7.4.5 from http://re.

2021-01-22 16:00:12 55 1

原创 yum 安装jdk

centos系统,前提已经安装好yumyum install java-1.8.0-openjdk* -y默认安装位置是在/usr/lib/jvm设置环境变量vim /etc/profileexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.275.b01-0.el7_9.x86_64激活配置source /etc/profile查看java 版本,为1.8.0 版本# java -versionopenjdk vers

2021-01-22 15:07:01 22 1

原创 maven-enforcer-plugin报错

[ERROR] Failed to execute goalorg.apache.maven.plugins:maven-enforcer-plugin:3.0.0-M1:enforce(enforce-versions) on project apache-atlas: Some Enforcer rules havefailed. Look above for specific messages explaining why the rulefailed. -> [Help 1] [ER.

2021-01-22 14:34:08 17

原创 Apache Atlas 安装及入门

介绍Apache Atlas 用来管理hive元数据安装# 解压更名tar xvfz apache-atlas-1.0.0-sources.tar.gzcd apache-atlas-sources-1.0.0/export MAVEN_OPTS="-Xms2g -Xmx2g"mvn clean -DskipTests package -Pdist,embedded-hbase-solr启动参考Apache Atlas – Building & Installing Apach

2021-01-22 14:13:55 8

原创 linux maven安装与入门

maven下载地址:https://archive.apache.org/dist/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz

2021-01-22 11:51:48 12

转载 数据质量管理

数据质量基本概念数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益影响因素数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真

2021-01-22 11:23:24 17

原创 spark读取Hbase数据

import com.hm.util.SparkHelperimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Resultimport org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbas

2021-01-21 14:21:32 17

原创 Hbase ImmutableBytesWritable数据类型

实现了WritableComparable接口public class ImmutableBytesWritableimplements WritableComparable<ImmutableBytesWritable>可用作key或value的字节序列。基于BytesWritable,该类不可调整大小,并且不像BytesWritable那样区分序列大小和当前容量。因此它相对来说是“不变的”。创建此类的新实例时,不会复制byte[],而只是引用它。当我们进行序列化时,将访问备份缓冲区。

2021-01-21 13:57:10 28

原创 spark graphX属性图

假设我们要构造一个属性图,它由GraphX项目上的各种协作者组成。vertex属性可能包含用户名和职业。我们可以用描述协作者之间关系的字符串来注释边:生成的图形将具有类型签名:val userGraph: Graph[(String, String), String]参考GraphX - Spark 3.0.1 Documentation...

2021-01-21 11:34:34 7

原创 spark graphx入门

引入例子import com.hm.util.SparkHelperimport org.apache.spark.graphx.{Edge, Graph, VertexId, VertexRDD}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionobject GraphTest { def main(args: Array[String]): Unit = { val spark: Sp

2021-01-21 09:50:42 26

原创 spark读取数据写入hbase

import com.hm.util.SparkHelperimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.{HColumnDescriptor, HTableDescriptor, TableName}import org.apache.hadoop.hbase.client.{Admin, Connection, ConnectionFactory, Put}import org.apache.h

2021-01-20 19:33:35 15

原创 redis简介与安装

简介Redis是C语言开发的是开源的基于内存的,(可以提供持久化保存)高性能的键值对模型的数据库可以用于消息缓存提供了多种数据类型的支持,比如字符串类型,散列类型,列表类型,集合类型,有序集合类型应用场景- 缓存(数据查询、短连接、新闻内容、商品内容等等)。(**最多使用**)- 分布式集群架构中的session分离。- 聊天室的在线好友列表。- 任务队列。(秒杀、抢购、12306等等)- 应用排行榜。- 网站访问统计。- 数据过期处理(可以精确到毫秒)特性

2021-01-20 18:57:25 13

原创 com.alibaba.fastjson.JSONArray cannot be cast to com.alibaba.fastjson.JSONObject

com.alibaba.fastjson.JSONArray cannot be cast to com.alibaba.fastjson.JSONObject原因:asInstanceOf要和isInstanceOf配合使用if (arr.isInstanceOf[JSONObject]) { val jarr: JSONObject = arr.asInstanceOf[JSONObject] list.append(jarr.getString("name").

2021-01-20 18:41:18 17

原创 java.rmi.ConnectException: Connection refused to host:

java.rmi.ConnectException: Connection refused to host: 127.0.0.1;nested exception is: java.net.ConnectException: Connection refused:connect

2021-01-20 15:42:20 7

原创 GeoHash入门及应用

GeoHash是一种地址编码方法。他能够把二维的空间经纬度数据编码成一个字符串应用import ch.hsr.geohash.GeoHashobject GeoTest { def main(args: Array[String]): Unit = { //对经纬度进行编码 val str: String = GeoHash.geoHashStringWithCharacterPrecision(39.916527, 116.397128, 6) println(str)

2021-01-20 14:05:32 19

原创 依据经纬度解析商圈scala实现

调用高德的API,需要先去高德申请一个key.import com.alibaba.fastjson.{JSON, JSONArray, JSONObject}import org.apache.commons.lang.StringUtilsimport org.apache.http.client.methods.{CloseableHttpResponse, HttpGet}import org.apache.http.impl.client.{CloseableHttpClient, Htt

2021-01-20 13:49:58 16

原创 Your branch is ahead of ‘origin/main‘ by 1 commit.

Your branch is ahead of 'origin/main' by 1 commit. (use "git push" to publish your local commits)意思是本地仓库有一个提交,比远程仓库要先进一个commit.需要先把这个commit提交到远程仓库

2021-01-20 10:30:07 55

原创 java json处理入门

依赖<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.47</version></dependency>构建json对象 public static void testJson1(){ JSONObject js = new JSON

2021-01-19 19:03:50 35

原创 scala json处理入门

依赖<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.47</version></dependency>构建json对象def test1(): Unit ={ val nObject = new JSONObject() nObject.p

2021-01-19 17:48:26 17

原创 git暂存区

Git 本地数据管理,大概可以分为三个区,工作区,暂存区和版本库。工作区(Working Directory)是我们直接编辑的地方,例如 Android Studio 打开的项目,记事本打开的文本等,肉眼可见,直接操作。暂存区(Stage 或 Index)数据暂时存放的区域,可在工作区和版本库之间进行数据的友好交流。版本库(commit History)存放已经提交的数据,push 的时候,就是把这个区的数据 push 到远程仓库了。...

2021-01-19 15:27:03 12

原创 scala http get请求

import org.apache.http.client.methods.{CloseableHttpResponse, HttpGet}import org.apache.http.impl.client.{CloseableHttpClient, HttpClients}import org.apache.http.util.EntityUtilsobject getDemo extends App { val url = "https://git-scm.com/docs/git-sta

2021-01-19 15:04:35 18

原创 git status命令

git-status - Show the working tree status显示在索引文件和当前HEAD提交之间具有差异的路径,在工作树和索引文件之间具有差异的路径以及工作树中未被Git跟踪的路径(并且被gitignore [5]忽略) )。 第一个是通过运行将提交的内容; 第二和第三个是您可以通过在运行runnin之前运行git add来提交的内容参考Git - git-status Documentation...

2021-01-19 14:32:45 31 2

原创 git config命令入门

git config命令用来配置git1、仓库级别 local 【优先级最高】2、用户级别 global【优先级次之】3、系统级别 system【优先级最低】查看仓库配置$ git config --local -lcore.repositoryformatversion=0core.filemode=falsecore.bare=falsecore.logallrefupdates=truecore.symlinks=falsecore.ignorecase=trueremo

2021-01-19 14:02:48 12

原创 flink file sink

该连接器为提供一个统一的接收器,并将分区文件写入Flink FileSystem抽象支持的文件系统。这个文件系统连接器为两者提供了相同的保证,它是现有流式文件接收器的改进,该流式接收器旨在提供一次精确的执行语义.BATCHSTREAMINGBATCHSTREAMINGSTREAMINGfile sink将传入数据写入存储桶。由于传入的流可以是无限制的,因此每个存储桶中的数据都被组织成有限大小的零件文件。使用默认的基于时间的存储,可以完全配置存储行为,在该存储中,我们每小时开始写入一个新存储桶。这意味着每个

2021-01-19 10:43:29 6

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除