自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

剑穹 的 博客

岁月沉积后、蓦然回首:原来不经意间的印痕也是一种美丽

  • 博客(23)
  • 收藏
  • 关注

原创 VMWare虚拟机安装WIN10系统【21H1长效稳定专业版】【图文详细教程】

所需软件准备:1.虚拟机2.镜像文件3.优启通EasyU_3.7.2021.0714生成 EasyU_v3.7.iso 镜像文件双击运行EasyU_v3.7.exe文件选择生成iso,选择保存路径,生成iso创建虚拟机​​​​按加+或-号调整位置按F10保存退出快速的按...

2021-10-09 11:47:49 5726

原创 搭建完全分布式CDH6.3.2详细教程(附安装包下载地址)

1、概述 1.1、简介 Cloudera Manager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器,这款利器具有集群自动化安装、中心化管理、集群监控、报警等功能,使得安装集群从几天的时间缩短在几小时以内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成

2020-10-25 09:37:57 4886 8

原创 flume监控Oracle表变化增量抽取数据到kafka

1.涉及到的软件框架及版本号系统及软件 版本 CentOS centos7.2 JDK JDK1.8 Flume flume-1.9.0 kafka kafka_2.11-0.11.0.3 zookeper oracle 2.zookeper单机版安装3.kafka单机版安装4.flume安装5.flume-ng-sql-source安..

2020-09-08 16:00:41 924 2

原创 JDBC读写数据优化-分批次读写数据库

最近由于业务上的需求,一张旧表结构中的数据,需要从oracle中提取出来,写入到MySQL表中,由于数据量过大,做了以下优化。1.在oracle数据库取数的时候时候给jdbc设置FetchSize参数,分批次从表中取数,然后将数据封装到list中。2.使用设置FetchSize参数的方式解决了读取数据时数据量过大的问题,但是分批次读取的数据存放在list中,在写入到mysql中时,同样面临这数据量过大的问题3.为了解决上面的问题,解决方案是:开启一个线程,监控list中数据变化,一旦list中有

2020-09-07 16:02:57 1553

转载 JDBC读取数据优化-fetch size

JDBC读取数据优化-fetch size 最近由于业务上的需求,一张旧表结构中的数据,需要提取出来,根据规则,导入一张新表结构中,开发同学写了一个工具,用于实现新旧结构的transformation,实现逻辑简单,就是使用jdbc从A表读出数据,做了一些处理,再存入新表B中,发现读取旧表的操作,非常缓慢,无法满足要求。读取数据的示例代码, conn = getConnection(); long start = System.currentTimeMillis(); ps = conn.prepare

2020-09-04 18:02:36 1885

转载 mysql的jdbc中fetchsize支持的问题

1. MySQL的JDBC OutOfMemoryError: Java heap space异常        MySql数据库通过JDBC对大表进行查询时抛出java.lang.OutOfMemoryError: Java heap space异常。这是因为默认情况下,MySQL的JDBC驱动会一下子把所有row都读取下来,这在一般情况下是最优的,因为可以减少Client-Server的通信开销。但是这样也有一个问题,当...

2020-09-04 17:57:14 2391 1

原创 分布式应用之CAP理论知识

CAP定理: 指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可同时获得。 一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(所有节点在同一时间的数据完全一致,越多节点,数据同步越耗时) 可用性(A):负载过大后,集...

2020-03-29 11:52:23 157

原创 Linux模板机及集群相关操作

目录一、概述二、模板机配置三、设置快照四、克隆虚拟机五、scp & ssh一、概述1.使用minimal镜像 安装虚拟机2. 把该虚拟机当做模板机3. 对模板机进行配置,然后基于模板机进行克隆二、模板机配置1. 配置ip地址vi /etc/sysconfig/network-scripts/ifcfg-eth0(1)minim...

2020-03-27 10:26:13 359

原创 Linux虚拟机三种网络配置

目录一、Host-Only 模式二、NAT 模式三、桥接模式四、防火墙一、Host-Only 模式Host-only 仅主机模式1.虚拟机网络设置配置虚拟机的网络设置为hostonly2.虚拟软件网络设置选择vmware - 编辑 – 虚拟机网络编辑器3.配置虚拟软件中vmnet1的IP为VMnet1选择一个网段,不修改0号ip地址。...

2020-03-27 09:05:14 521

原创 Flink入门案例-wordCount

开发工具官方建议使用Intellij IDEA,因为它默认集成scala和maven环境,使用更加方便开发flink程序,可以使用java或者scala语言。个人建议,使用scala,因为实现起来更加简洁。使用java代码实现函数式编程比较别扭。建议使用maven国内镜像仓库地址(1)国外仓库下载较慢,可以使用国内阿里云的maven仓库(2)注意:如果发现国内源下载提示找不...

2020-03-26 21:29:06 638

原创 Flink初识

Flink简介Apache Flink 是一个开源的分布式,高性能,高可用,准确的流处理框架。主要由 Java 代码实现。支持实时流(stream)处理和批(batch)处理,批数据只是流数据的一个极限特例。Flink原生支持了迭代计算、内存管理和程序优化。Flink架构图Flink基本组件介绍Data Source: 负责接收数据 Trans...

2020-03-26 10:31:10 191

转载 Hive为什么要启用Metastore?

相关概念1.Metadata概念:元数据包含用Hive创建的database、table等的元信息。元数据存储在关系型数据库中。如Derby、MySQL等。2.Metastore作用:客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码...

2019-10-19 11:08:02 614

转载 Hue安装部署(Centos 7.2)

Hue安装部署(Centos 7.2)2017-09-13 11:17:03小强签名设计阅读数 4635更多分类专栏:大数据生态圈版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/m0_37739193/article/details/77963240一,HUE...

2019-10-18 18:03:19 429 1

转载 CentOS7编译安装MySQL5.7之后安装mysql-devel出错解决方案

由于我的MySQL是自己编译安装,但是安装之后/etc/yum.repos.d/目录下并没有MySQL的源,导致我在安装mysql-devel出错。缺少MySQL的源:[root@localhost liuyuantao]# cd /etc/yum.repos.d/[root@localhost yum.repos.d]# lsCentOS-Base.repo CentOS-...

2019-10-18 16:15:47 1831

转载 phoenix(凤凰)与hbase集成

一、什么是Phonenix?Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API...

2019-10-17 16:47:06 671

转载 Hive学习之路 (五)hive使用beeline配置远程连接

hive以hadoop集群为基础,提供hdfs的SQL支持;hive一般可以以mysql为元数据存储,默认Derby;hadoop,hive安装自行百度吧;介绍hive的远程访问:  未配置之前使用beeline的话,每次都要为连接输入用户名密码,较为麻烦;  实现目标:在非集群节点上敲beeline命令,直接进入到hive的命令行1,在hive服务的安装节点的hive-...

2019-10-15 17:12:47 1075

转载 Hive学习之路 (四)Hive的连接3种连接方式

目录一、CLI连接二、HiveServer2/beeline1、修改 hadoop 集群的 hdfs-site.xml 配置文件2、修改 hadoop 集群的 core-site.xml 配置文件三、Web UI一、CLI连接进入到 bin 目录下,直接输入命令:[hadoop@hadoop3 ~]$hiveSLF4J: Class path c...

2019-10-15 17:07:02 408

原创 安装mysql(YUM源方式)

目录CentOS6.9 安装mysql(YUM源方式)CentOS7.2安装mysql(YUM源方式)CentOS6.9 安装mysql(YUM源方式)1.使用yum安装mysql server。# yum install -y mysql-server2.启动mysql# service mysqld start3.设置开机启动# chkc...

2019-10-14 16:20:39 2366 1

转载 Hive学习之路 (一)Hive初识

目录Hive 简介什么是Hive为什么使用 HiveHive 特点Hive 和 RDBMS 的对比Hive的架构1、用户接口: shell/CLI, jdbc/odbc, webui Command Line Interface2、跨语言服务: thrift server 提供了一种能力,让用户可以使用多种不同的语言来操纵hive3、底层的Driver: 驱动...

2019-10-14 15:20:07 155

原创 SparkSql入门

目录1. SQLContext的使用2.HiveContext的使用 3.SparkSession的使用4. spark-shell5. thriftserver编程 6.DataFrame&DataSet 1 概述2 DataFrame 基本API常用操作 3 DataFrame与RDD互操作4 DataSet7.SparkSQL操作外部数据...

2018-11-30 14:41:06 329

原创 cdh5.7.0伪分布式集群之spark-2.2.0安装

基本环境及软件:软件版本 软件包 centos-6.4   JDK-1.8 jdk-8u191-linux-x64.tar.gz hadoop-2.6.0 hadoop-2.6.0-cdh5.7.0.tar.gz scala-2.11.8 scala-2.11.8.tgz spark-2.2.0 spark-2.2.0-bin-2.6.0...

2018-11-30 10:40:25 605

原创 cdh5.7.0伪分布式集群之hive安装

基本环境及软件:软件版本 软件包 centos-6.4   JDK-1.8 jdk-8u191-linux-x64.tar.gz hadoop-2.6.0 hadoop-2.6.0-cdh5.7.0.tar.gz hive-1.1.0 hive-1.1.0-cdh5.7.0.tar.gz 软件安装包官网下载地址 :http://archive-...

2018-11-29 18:00:41 789

原创 hadoop完全分布式运行模式安装

基本环境及软件:软件版本 软件包 centos-6.4 JDK-1.8 jdk-8u191-linux-x64.tar.gz hadoop-2.6.0 hadoop-2.6.0-cdh5.7.0.tar.gz 软件安装包官网下载地址 :http://archive-primary.cloudera.com/cdh5/cdh/5/设置免密码登录...

2018-11-29 15:37:37 563

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除