自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (5)
  • 收藏
  • 关注

原创 17张图带你彻底搞懂hudi upsert源码

前言​ 如果要深入了解apache hudi技术的应用或是性能调优,那么明白源码中的原理对我们会有很大的帮助。在apache hudi 中upsert 是他的核心功能之一,主要完成增量数据在hdfs上的修改,并可以支持事务。在hive中修改数据需要重新分区或重新整个表,但是对于hudi更新可以是文件级别的重写或是数据先进行追加后续在重写,对比Hive 大大的提高了更新性能。upsert支持两种模式的写入copy on write和merge on read ,下面本文将介绍Apache Hu

2021-05-15 10:53:42 6041 8

原创 数据埋点日志收集测试环境搭建

1.前置环境安装准备1.1主机环境ip地址主机名称系统192.168.199.111mastercentos7192.168.199.112node1centos7192.168.199.113node2centos71.2 其他软件版本软件名称版本链接地址java1.8.0_161-b12nginxnginx-1.9.9https://nginx.org/download/nginx-1.9.9.tar.gz

2021-05-03 19:56:22 911 1

原创 Apache Hudi在医疗大数据的应用

Apache Hudi在医疗大数据的应用        本篇文章主要介绍hudi在医疗大数据中的应用,主要分为5个部分进行介绍:建设背景,为什么选择hudi,hudi的数据同步,存储类型选择及查询优化,未来发展与思考。01 建设背景        我们公司主要为医院建立大数据应用平台,需要从各个医院系统中抽取数据建立大数据平台。如医院信息系统,实验室(检验科)信息系统,体检信息系统,临床信息系统,放射科信息管理系统,电子病

2020-05-29 23:25:27 1039

原创 Apache+Hudi入门指南(含代码示例)

1. 什么是Apache Hudi一个spark 库大数据更新解决方案,大数据中没有传统意义的更新,只有append和重写(Hudi就是采用重写方式)使用Hudi的优点使用Bloomfilter机制+二次查找,可快速确定记录是更新还是新增更新范围小,是文件级别,不是表级别文件大小与hdfs的Blocksize保持一致数据文件使用parquet格式,充分利用列存的优势(drema...

2020-02-24 21:09:26 12935 20

原创 flink 1.9 sql-client 连接hive catalog配置

一,下载flink 1.9 或编译flink 1.9下载地址:https://www.apache.org/dyn/closer.lua/flink/flink-1.9.0/flink-1.9.0-bin-scala_2.11.tgzflink 1.9 编译或特殊版本编译(如cdh ,Hortonworks等)参考另一篇文章https://blog.csdn.net/h33514650...

2019-09-10 16:23:33 6921 1

原创 flink 1.9 编译(含cdh版本编译)

一,github获取flink 最新代码git clone https://github.com/apache/flink切换到flink 1.9分支git checkout release-1.9二,编译flink 代码flink 集群或单机模式打包,该模式打包是没有yarn-cluster命令,任务是无法提交任务到yarn上.mvn clean install ...

2019-07-19 16:45:22 5165 2

原创 hadoop windows远程调试

前言因为之前工作都是使用的ubuntu系统,所以调试一直是在本地机器根本不会使用远程调试。但是新来的同事习惯使用window的系统,希望能够远程调试hadoop代码。所以研究了下调试方法。一,远程测试集群配置在linux 远程测试集群进行如下配置export HADOOP_CLIENT_OPTS=-agentlib:jdwp=transport=dt_soc...

2019-03-29 14:47:04 254

原创 jvm 内存模型,参数配置,命令解释

1,jvm的组成java 堆1,所有系统对象都保存在jvm 堆中2,所有线程共享java堆3,堆是分代的,分为eden s0 s1 renured4, gc 工作的主要空间java 栈1,线程私有的2,栈是由一系列帧组成3,每次方法调用都会创建一个帧,并压栈4,每个方法执行,都会创建一个栈帧,伴随着方法从创建到执行完成。用于存储局部变量表,操作数栈,动...

2019-03-29 14:46:09 288

原创 cdh5.5 RHadoop安装

1.安装环境操作系统:CentOS release 6.4  linux集群环境:cdh5.5   hadoop2.6java版本:jdk1.7 R版本:3.32.环境安装2.1 R 环境安装apt-get update

2016-02-28 20:32:21 776

原创 python脚本当作Linux中的服务启动

脚本服务化目的:python 在 文本处理中有着广泛的应用,为了满足文本数据的获取,会每天运行一些爬虫抓取数据。但是网上买的服务器会不定时进行维护,服务器会被重启。这样我们的爬虫服务就无法运行。这个时候我们可以把python脚本服务化,服务器重启后,脚本就会自动运行。解决服务器维护后需要手动运行python脚本。实现方法:1,给编写好的python脚本开头加上#!/usr/bi

2016-02-19 23:09:03 6847

原创 金融数据分析quantmod 函数

获取股票数据getSymbols("EDU",src="yahoo",from='2013-10-01',to='2014-10-23')创建工作空间new.environment获取财务报表getFinancials("AAPL")is 函数 判断某数据是否是某类型的数据is.OHLC()             判断是否有开盘

2016-02-10 16:58:39 1721

原创 距离判别法

距离判别法:距离判别方是通过计算待测点到各个分类的距离,在根据计算出距离的大小,进行判别该待测点属于那个分类。但是距离的计算是通过马氏距离进行计算的,而不是我们平常几何中用的欧式距离。欧式距离的定义:       欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2

2016-02-10 16:56:52 14101

原创 线性判别法

线性判别法原理:用一条直线来划分已有的学习集的数据,然后根据待测点在直线的那一边决定的分类。如下图可以做出一条直线来划分两种数据的分类。    但是一般情况下特征数很多,想降低特征数维度。可以通过投影的方式进行计算。然而使得一个多维度特征数变换到一条直线上进行计算。可以减少计算工作的复杂度。推算过程:http://blog.csdn.net/carson

2016-02-10 16:45:45 988

转载 nutch 插件原理

plugin(插件)为nutch提供了一些功能强大的部件,nutch中很多功能都是使用插件实现的,而使用者也可以自行开发更多适合自已的插件。nutch使用这样的plugin系统有什么好处:1:可扩展性       通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:我们在NUTCH里使用LOADBALANCE进行下载的插件,它就是一个

2013-09-05 16:23:56 518

转载 Nutch1.2增加插件例子

今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下:http://wiki.apache.org/nutch/WritingPluginExample-0.9这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实现推荐必须在你的网页上加上[xhtml] view plai

2013-09-05 16:11:37 416

原创 Flex 框架cairngorm的学习

 View(界面): View部分就是页面了,这部分需要注意的就是声明ServiceLocator和FrontControl。ServiceLocator的声明和我们之前提到的FrontControl是一样的。View部分的作用就是提供界面,发送信号,响应绑定数据变化。<service:UserService id="myService"/>          ...

2012-10-06 00:18:43 110

hudi mvn 依赖pom文件

hudi mvn 依赖pom文件hudi mvn 依赖pom文件hudi mvn 依赖pom文件hudi mvn 依赖pom文件hudi mvn 依赖pom文件

2020-02-21

j2ee 所需所有api文档

XML指南.chm xsd.chm servlet-api.chm MySQL_5.1_zh.chm JSP+API.CHM jdk1.6_API.CHM HTML5 参考手册.chm DTD.chm DHTML 手册.chm

2013-01-20

servlet-api.chm

servlet-api.chm api文档

2013-01-20

JSP+API.chm文档

关于jsp的api.chm的开发文档。

2013-01-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除