a姜哲雨-CSDN博客

1. 知识图谱概论知识图谱，是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系，通过将数据粒度从document级别降到data级别，聚合大量知识，从而实现知识的快速响应和推理。当下知识图谱已在工业领域得到了广泛应用，如搜索领域的Google搜索、百度搜索，社交领域的领英经济图谱，企业信息领域的天眼查企业图谱等。如图所示，可以看到，如果两个节点之间存在关系，他们就会被一条无向边连接在一起，那么这个节点，我们就称为实体（Entity），它们之间的这条边，我们就称为关系（Rela

2022-05-07 15:33:39 5300 6

原创 flink1.12 sql client测试笔录

需求：一直使用代码提交的方式繁琐，上手较慢，期望能够像阿里blink以简单的sql方式提交代码实现实时处理，此处以flink自带的sql客户端进行测试和调试，简单demo作为笔录kafka作为source源单独建一个目录，将如下jar包上传flink-json-1.12.0.jarflink-sql-connector-kafka_2.11-1.12.0.jar启动flinkbin/start-cluster.sh启动sql-clientbin/sql-client.sh.

2021-06-09 09:38:31 575

原创 canal-admin单机模式部署安装

canal-admin单机模式部署安装一、安装canal-admin解压安装mkdir /opt/soft/canal-admin115tar -zxvf canal.admin-1.1.5-SNAPSHOT.tar.gz -C /opt/soft/canal-admin115/修改配置文件application.ymlvi conf/application.yml,修改address为本地源数据库,并修改相关用户和密码server: port: 8089spring:

2021-04-23 14:32:05 1336

原创 Oracle Goldengate（ogg）配置和安装投递消息至kafka

Oracle Goldengate （ogg）配置和安装一、环境信息二、源端安装2.1 源端ogg相关2.2 源端Oracle相关三、目标端安装四、开始配置投递4.1 OGG源端配置4.2 OGG目标端配置五、测试一、环境信息ogg安装分为两个版本，源端和目标端安装版本信息不同，源端版本大于或等于oracle版本，目标端大于或等于源端ogg版本即可，具体信息如下版本ip主机名映射源端Oracle GoldenGate 11.2.1.0.3 for Oracle on Lin

2021-04-19 16:12:17 1480 4

原创 Oracle 离线单点静默安装

Oracle 离线单点静默安装一、环境准备jdk1.8可用的yum源（下载慢的可以配置下国内阿里镜像）oralce11g安装包官网下载实在太慢，用了n遍的本地资源双手奉上????‍????链接：https://pan.baidu.com/s/1R5w_paQH8QQi_KAknXCBYw 提取码：57hjoracle11g for 64bit 下载包含如下内容linux.x64_11gR2_database_1of2linux.x64_11gR2_database_2o

2021-04-18 15:03:59 202

原创 flume实现jdbc source将mysql数据实时监控导入kafka

flume将mysql数据实时监控导入kafka一、数据准备二、flume-ng-sql-source资源下载准备三、编辑flume配置四、启动并实现五、结果展示一、数据准备这里我们使用一个极为简单的mysql数据表作为测试使用，如下二、flume-ng-sql-source资源下载准备需要到https://github.com/keedio/flume-ng-sql-source下载源码并且使用maven编译打包程序获得jar包流程如下：下载源码压缩包上传压缩包并解压unzip f

2021-03-10 17:11:50 933

原创 DataX入门———用法及一些简单的案例介绍

DataX入门———用法及一些简单的案例介绍一、概述1. 简介2. 设计理念3. 运行框架二、安装三、案例介绍1. 从stream流读取数据并打印到控制台2. 读取mysql数据存放到hdfs3. 读取HDFS数据存放到MySQL4. 读取Oralce数据存放到Mysql一、概述1. 简介DataX是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库（MySQL、Oracle）、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。优点，使用方

2021-02-08 10:54:57 2855

原创 CM+CDH大数据环境搭建最终完整版

CM+CDH大数据环境搭建最终完整版一、集群准备1. 连接工具同时发送指令2. 修改基础配置3. 集群规划4. 创建非root用户5. 配置ip地址和主机名映射关系6. 设置swap交换空间7. 关闭大页面压缩8. SeLinux 设置9. 免密登陆10. 时间同步11. 创建目录用于上传安装包12. 配置JDK13. 安装所需要的编译环境（可跳过）14. 安装mysql二、CM+CDH安装1. 解压cloudera2. 配置clouera3. 创建Cloudera Manager所需要的数据库4. 创建服

2021-02-05 14:12:20 1334 6

原创 Azkaban的基本使用方法

Azkaban的基本使用方法一、支持任务类型二、单一job案例三、多任务工作流程配置四、执行spark程序报错Installation Failed. Error chunking一、支持任务类型Azkaban内置的任务类型支持command、javacommand实际是执行shell脚本，所以支持性很高。二、单一job案例需求：编写时间脚本，每隔一分钟将时间输入到指定文本date.txt编写job# 必须以job为结尾vi p1.jobtype=commandco

2021-02-02 18:04:25 1110 1

原创 Azkaban基本架构与安装部署

azkaban基本架构与安装部署一、基本架构二、Azkaban安装部署三、启动四、窗口介绍一、基本架构azkabanWebServer：是整个Azkaban工作流系统的主要管理者，用户登录认证、负责project管理、定时执行工作流、跟踪工作流执行进度第一系列任务。 azkabanExecutorServer：负责具体的工作流的提交、执行，他们通过mysql数据库来协调任务的执行。关系型数据库（MySQL）：存储大部分执行流状态，AzkabanW

2021-02-02 10:43:24 226

原创解决Flink Elasticsearch Sink报错org.apache.flink.runtime.client.JobExecutionException: Job execution fai

解决Flink Elasticsearch Sink报错我的代码如下，代码几乎都是一样的，格式也与官网一致，以下是flink scala elasticsearch6.x版本，尝试过修改5版本的写法也都是一直是报错。elasticsearch登陆也都是正常的，甚至在本地安装es，尝试是否能跑通还是报错，报错内容也在下面。 elasticsearch sinkimport java.utilimport org.apache.flink.api.common.funct

2021-01-22 15:23:44 4129

原创 Windows环境下配置Hadoop，让你的程序能在本地跑

Windows环境下配置Hadoop，让你的程序能在本地跑一、解压hadoop目录至本地二、配置Hadoop环境三、添加Hadoop插件一、解压hadoop目录至本地资源提供（版本260）：https://pan.baidu.com/s/17L0heRSgEv4nTvEWmSsMFQ 提取码：d5rm解压资源至本地目录，如下我解压在D盘根目录：二、配置Hadoop环境编辑系统环境变量，新增系统变量变量名：HADOOP_HOME复制你解压的hadoop目录为变量值变量值：D:\ha

2021-01-21 09:29:40 295

原创虚拟机文件远程拷贝或发送命令scp

从另外一台虚拟机拷贝指定目录文件submit_files到本地指定目录/opt下scp -r root@192.168.xx.xx:/root/jiazhongyu/submit_files/ /opt将本地指定目录文件发送到指定的虚拟机指定的目录scp -r /root/jiazhongyu/submit_files root@192.168.xx.xx:/opt若发送或复制文件的两台虚拟机没有配置免密，输入密码即可...

2021-01-14 09:34:04 5711

原创 Spark JDBC连接ClickHouse读写操作

Spark JDBC连接ClickHouse读写操作一、依赖二、读一、依赖   <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-co

2021-01-12 15:33:08 8393 3

原创 ClickHouse常用命令，基本数据类型

ClickHouse常用命令，基本数据类型一、建库建表基本命令二、基本数据类型整型浮点型布尔型字符串枚举类型数据组元组日期时间戳三、表引擎一、建库建表基本命令查看库show databases;使用库use databaseName;查看表show tables；新建库create database ck_test ;删除库drop database ck_test;新建表create table ck_test.myOperator(id String COMMENT

2021-01-12 15:00:15 1241

原创 ClickHouse入门虚拟机centos单点安装，DBeaver连接方式，可视化界面

ClickHouse入门虚拟机centos单点安装，DBeaver连接方式一、ClickHouse简介1. 什么是ClickHouseClickHouse是一个完全的列式数据库管理系统，主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。它在大数据领域没有走Hadoop生态，而是采用Local attached storage作为存储，所以没有依赖Hadoop的局限性。2. 性能2.1 优点数据按列式存储，按向量进行处理，高效的使用CPU；写入速度非常快

2021-01-12 09:49:09 1413

原创关于spark-submit提交参数说明及示例

关于spark-submit提交参数说明及示例参数说明示例单机测试环境yarn-clientyarn-cluster参数说明参数名参数说明--packages包含在driver 和executor 的 classpath 中的 jar 的 maven 坐标--exclude-packages为了避免冲突而指定不包含的 package--repositories远程 repository--conf PROP=VALUE指定 spark 配置属性的值，例如

2020-12-22 09:37:54 674

原创 spark读文件生成df元素长度超过22不想创建schema偷懒方法可真够懒得哎φ(*￣0￣)

问题描述：当我们使用spark读取文件时用如下方式可以简便读取并快速形成df进行相关操作当读取其他类文本时如textFile通常想到sc.textFile("")使用map进行分割，创建schema表结构；偷懒时一般会将列元素放到元组当中如下： val dnbgx_df = sc.textFile("hdfs://jzy1:9000/workdata/clean/jlddnbgx_25").map(x=>{ val all = x.split("\t") (all

2020-11-22 20:15:58 545

原创 hbase 大表快速count

hbase org.apache.hadoop.hbase.mapreduce.RowCounter '表名'

2020-09-30 16:21:29 298

原创 java和spark连接mysql hive hbase进行读写操作

java和spark连接mysql hive hbase一、java连接1.1 java连接mysql1.2 java连接hive1.3 java连接HBase二、spark连接2.1 spark连接mysql2.2 spark连接hive2.3 spark连接hbase一、java连接1.1 java连接mysqlpublic static void main(String[] args) throws Exception { String driver = "com.mysql.j

2020-09-16 14:01:32 678

原创 hortonworks docker 添加mysql端口创建映射远程访问

在centos7连接端口2122下查看是否存在3306端口docker ps1未发现该端口，删除该镜像镜像注意删除镜像号在上一个指令中可以查看，我的是e735d0e6fde6docker rm -f e735d0e6fde6删除后docker2222端口将断开连接进入start_scripts目录，修改如下三个文件，在文件中添加3306端口[root@sandbox-host ~]# cd start_scripts/在上图所示的三个文件当中添加3306端口如下图所..

2020-09-14 21:57:13 185

原创 spark提交maven程序报错Exception in thread “main“ java.lang.StackOverflowError

报错Exception in thread “main” java.lang.StackOverflowError如下：原因：栈内存溢出解决方案：修改spark相关配置：进入spark conf目录[root@jzy1 opt]# cd /opt/soft/spark234/conf/拷贝配置文件spark-defaults.conf.template并添加配置：[root@jzy1 conf]# cp spark-defaults.conf.template spark-def

2020-09-11 12:23:55 640

原创 spark写数据到mysql简便方法

首先需要准备导入mysql的df， val res = userAction.join(buygoods,Seq("cust_id","good_id"),"left").join(users,Seq("cust_id")) .join(goods,Seq("good_id")) .na.fill(Map("buy_time"->"190001","buynum"->"0","count_price"->"0"))执行以下指令，overwirte全量，.

2020-09-09 16:20:04 516

原创 python Matplotlib数据可视化常用图形基本操作

python Matplotlib数据可视化基本操作matplotlib介绍柱状图 bar散点图 scatter饼图matplotlib介绍一个有效Python 2D绘图库、高版本也可以绘制部分3D图支持多种数据结构list，ndarray，Series，DataFrame柱状图 bar导入pandas,读表并选取需要的数据import pandas as pdjobs_csv = pd.read_csv("/opt/jobs_csv.csv")job=jobs_csv['l

2020-08-30 20:51:37 440

原创 python连接hive sasl组件下载失败解决方案

这里写目录标题操作代码注：下载需求包安装sasl踩坑执行连接成功操作代码虚拟机开启相关进程，hadoop、hiveserver2操作代码很简单如下所示注意先不要运行，这里缺少相关需求包组件from pyhive import hiveconn = hive.Connection(host='192.168.56.21', port=10000, username='root',password='ok', database='mydemo',auth='LDAP')cursor = conn.

2020-08-25 19:32:53 1838

原创 Python linux/windows pip配置国内源

pip配置国内源pip国内镜像linux临时使用永久使用windows平台pip国内镜像阿里云 http://mirrors.aliyun.com/pypi/simple/豆瓣http://pypi.douban.com/simple/清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/华中科技大学http://pypi.hustunique.com/lin

2020-08-25 15:52:30 307

原创 python —— linux Anoconda3安装及pyspark搭建

python —— linux Anocaonda3安装及JupyterAnocaonda3资源获取安装步骤执行Anocaonda3资源获取python自身缺少numpy、matplotlib、scipy、scikit-learn....等一系列包，需要安装pip来导入这些包才能进行相应运算Anaconda(开源的Python包管理器)是一个python发行版，包含了conda、Python等180多个科学包及其依赖项。包含了大量的包，使用anaconda无需再去额外安装所需包资源获取：https:

2020-08-18 10:20:21 1021 1

原创 spark项目实战——Flume-＞Kafka-＞SparkStreaming-＞Kafka

项目基本需求：利用Flume监控文件，将文件读取到Kafka中，再从Kafka中读入到SparkStreaming，在SparkStreaming中经过简单的处理后再写入到Kafka中。文件格式csv文件格式如下，user的朋友关系一对多，将朋友关系展开实现一对一的表格Flume监控文件读入到Kafka中a6.sources=s6a6.channels=c6a6.sinks=k6a6.sources.s6.type=spooldira6.sources.s6.spoolDir=/opt

2020-08-17 09:55:22 435 1

原创 Spark Streaming的流数据处理和分析 Spark读写Kafka

Spark Streaming的流数据处理和分析 Spark读写Kafka一、流是什么二、Spark Streaming1、简介2、流数据处理框架3、内部工作流程三、StreamingContext Spark Streaming读kafa数据1、创建2、入门 Spark Streaming读kafa数据示例无状态流处理有状态流处理四、Spark Streaming 写数据到kafka对KafkaProducer包装，再广播到每个Executor中，避免产生大量对象一、流是什么数据流数据的流入

2020-08-17 09:42:44 771

原创 log4j.properties配置将控制台日志文件保存到log文件中

log4j.properties配置将控制台日志文件保存到log文件中idea中main目录下新建目录resources,并将目录改为为Resources Root新建文件log4j.properties2. 在log4j.properties 添加如下内容log4j.rootLogger=ERROR,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.a

2020-08-17 09:13:16 1338 1

原创 kafka入门安装使用 flume连接kafka以及kafka API

kafka入门为什么使用消息中间件（MQ）消息中间件中的术语Apache Kafkakafka安装flume连接导入单分区数据量大是使用多分区提高效率kafka Producer/Consumer API为什么使用消息中间件（MQ）异步调用同步变异步应用解耦提供基于数据的接口层流量削峰缓解瞬时高流量压力消息中间件中的术语Broker：消息服务器，提供核心服务Producer：消息生产者Consumer：消息消费者Topic：主题，发布订阅模式下的消息统一

2020-08-10 19:47:48 409 1

原创 Flume日志收集一看就会 []~(￣▽￣)~*

Flume日志收集Apache Flume简介Flume用于将多种来源的日志以流的方式传输至Hadoop或者其它目的地一种可靠、可用的高效分布式数据收集服务Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复由Cloudera 2009年捐赠给Apache，现为Apache顶级项目Flume架构Client：客户端，数据产生的地方，如Web服务器Event：事件，指通过Agent传输的单个数据包，如日志数据通常对应一行数据Agent：代理，一个独立的J

2020-08-09 20:50:00 431

原创 Spark GraphX 图形数据分析（API PageRank Pregel）

Spark GraphX 图形数据分析GraphX API图的构建与图信息的查看图的算子pageRank应用pregel应用求最短距离GraphX API图的基本概念和术语这里介绍，这里以示例来做基本演示与理解外部依赖除了基本的spark依赖之外，还需导入spark-GraphX构建如下关系图，圈内数字分别表示各个点的id，以（name,job）作为各点的属性，各点之间形成关系图，边的权重表示为点与点之间的联系图的构建与图信息的查看创建图操作（以下为操作步骤，代码在main方法中执行）

2020-08-04 22:39:52 384 2

原创 Spark SQL 操作外部数据源-Hive 的两种方法

Spark SQL 操作外部数据源-Hive依赖resources操作代码依赖spark-corespark-sqlmysql-connectorspark-hive  <dependency> <groupId>org.apache.spark</groupId> &l

2020-08-01 23:25:21 368

原创 Scala【三】面向对象入门

Scala 面向对象Scala面向对象基本概念1. 类类成员访问修饰符类的定义类的继承抽象类2.抽象类3.单例对象定义单例对象伴生类与伴生对象4. 特质（trait）特质示例混入特质动态混入特质5. 内部类6. 样例类7. 枚举8. 泛型类类型边界型变Scala面向对象基本概念1. 类类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public，也支持private、protected类中无法定义静态成员变量和方法类无需明确定义构造方法，通过构造参数列

2020-07-31 09:20:13 165

原创使用idea打包scala程序，并在spark中提交运行

一、pom文件中build修改 <build> <plugins> <plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</artifactId> <version>2.15.2</version> <execut

2020-07-29 23:02:27 1010 2

原创 spark如何读取包含json格式+普通文本格式的文本并转换成DataFrame

我们知道spark读取文件并转换成DataFrame可以通过sparkSession.read.format直接读取，但是当我们读取的是普通文本，并且内容包含普通文本及json格式的文档，如下图abc.log文档,如何读取并转换？12334 hehehe {"name":"zhangsan","age":"32"} 1995-6-7123423 xixi {"name":"lisi","age":"32"} 2000-9-8234435 cici {"name":"wangwu","age":"3

2020-07-29 22:45:29 741

原创 Spark 创建DataFrame的常用方法及使用表不还是随便用用么φ(*￣0￣)

Spark 创建DataFrame的常用方法及使用一、通过读取文件创建二、通过seq生成三、动态创建schema四、通过读取数据库一、通过读取文件创建 def main(args: Array[String]): Unit = { val spark = SparkSession.builder().master("local[1]").appName("mytest").getOrCreate()

2020-07-28 22:54:44 239

原创 Spark【一】简介及完全分布式安装

Spark简介及完全分布式安装初识Spark为什么使用SparkSpark优势完全分布式安装及启动启动命令初识Spark为什么使用SparkMapReduce编程模型的局限性繁杂只有Map和Reduce两个操作，复杂的逻辑需要大量的样板代码处理效率低Map中间结果写磁盘，Reduce写HDFS，多个Map通过HDFS交换数据任务调度与启动开销大不适合迭代处理、交互式处理和流式处理Spark是类Hadoop MapReduce的通用并行框架Job中间输出结果可

2020-07-26 22:40:18 539

空空如也

空空如也