游九河-CSDN博客

原创 GC日志中的信息怎么看-1

GC日志中括号里面是GC信息，包括GC前、后堆内存使用量和堆内存总大小。

2023-06-30 10:49:32 388

转载在Intellij IDEA中使用Debug

https://www.cnblogs.com/chiangchou/p/idea-debug.html

2020-04-21 18:33:13 397 1

原创 linux 常见命令

1.软连接（ln）[root@hadoop000 ~]# ln -s /hadoop/app/apache-maven-3.6.2/conf/settings.xml setting.xml[root@hadoop000 ~]# lltotal 189612-rw-------. 1 root root 1894 Jan 6 04:05 anaconda-ks.cfg-rw...

2020-01-26 14:57:37 505

原创 IEDA 快捷键

打开源码搜索Shift + Shift

2020-01-11 01:31:53 250

原创 Dbeaver 连接 phoenix

遇到问题一：ERROR 103 (08004): Unable to establish connection. java.lang.reflect.InvocationTargetException java.lang.reflect.InvocationTargetException java.lang.reflect.InvocationTargetExcepti...

2020-01-07 16:48:37 5519 5

原创 kafka

创建topicsh bin/kafka-topics.sh --create --zookeeper hadoop000:2181/kafka --topic test --partitions 1 --replication-factor 1查看topicsh bin/kafka-topics.sh --describe --zookeeper hadoop000:2181/kafka ...

2020-01-07 16:36:29 146

原创 spark 源码编译

./dev/make-distribution.sh --name 2.6.0-cdh5.16.1 --tgz -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.16.1 -Phive -Phive-thriftserver -DskipTests -Pscala-2.11

2020-01-07 16:33:52 182

原创 idea中maven插件查看 maven依赖图

idea的maven插件还是很优秀的，比如查看maven依赖1. 打开pom文件，然后右键：2 放大3 如果有依赖冲突的话，显示的是显示为红色

2020-01-01 13:33:16 10274 4

原创 Es中报错：Fielddata is disabled on text fields by default. Set fielddata=true on [revision]...

PUT person_real_time_location_record/_mapping/data{"properties": { "person_type": { "type": "text", "fielddata": true } }}

2019-12-26 16:31:53 427

原创 mysql 常见命令

1. 查看binlog 模式show variables like ‘%binlog%’;| binlog_format | ROW |mysql> show variables like '%binlog%';+-----------------------------------------+-...

2019-12-22 14:17:09 113

原创常用查看机器配置的命令

一、查看内存1.1 free[root@localhost mysql]# free -h total used free shared buff/cache availableMem: 3.7G 879M 732M 21M 2.1G ...

2019-12-21 14:06:21 537

原创 CDH 6.3.1安装

1 安装lrzsz[root@hadoop001 ~]# yum -y install lrzsz [root@hadoop002 ~]# yum -y install lrzsz[root@hadoop003 ~]# yum -y install lrzsz2 上传安装文件rz

2019-10-31 16:51:42 1357

原创 scala知识点二

一、类和变量的访问权限 private[package_name]1） T1.scalapackage com.ds.testprivate[test] class T1{ def a1(): Unit ={ println("-----this is test 中 a1 method -------------------") }}private[test] obj...

2019-10-23 17:44:53 179

原创数据结构 -- 图的广度优先遍历解决最短路径

最短路径用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展，直到扩展到终点为止。广度优先遍历算法能得出最短路径的最优解，但由于它遍历计算的节点很多，所以效率低。scala 实现下面的代码：1 创建一个队列，遍历的起始点放入队列，新建一个 boolean 数组、新建距离数组，父亲顶点数组2 从队列中取出一个元素，收集它，将其标记为已访问，将父亲顶点和距离存到数...

2019-10-17 21:12:14 2234

原创数据结构 -- 图的广度优先遍历（BFS）

图的广度优先遍历（BFS）bfs总是先访问完同一层的结点，然后才继续访问下一层结点，如下图从0 ->（1、2）-> (3、4、6) -> (5) 一层一层向距离起始点更远的顶点遍历。它最有用的性质是可以遍历一次就生成中心结点到所遍历结点的最短路径，这一点在求无权图的最短路径时非常有用。scala 实现下面的代码：1 创建一个队列，遍历的起始点放入队列2 从队列中...

2019-10-17 19:31:30 804

原创数据结构 -- 图中二分图检测

二分图二分图又称作二部图，是图论中的一种特殊模型。设G=(V,E)是一个无向图，如果顶点V可分割为两个互不相交的子集(A,B)，并且图中的每条边（i，j）所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B)，则称图G为一个二分图。图1和图3属于二分区，图2不属于二分图。二分图检测染色法如上图，对图中顶点染色，从其中一个顶点开始染为红色，相邻顶点染为黑色，依次...

2019-10-16 20:54:15 461

原创数据结构 -- 图中两点间的路径

无向图中的路径路径：在图中，两点间边构成的序列，比如图中0到6中一条路径0 -> 1 -> 3 -> 2 -> 6。一般图中两点之间的路径不止一条。这里的路径只要找到一条就返回。scala 实现import scala.collection.mutable.ArrayBufferclass Path { private var G: Graph = _ ...

2019-10-16 18:50:23 1751

原创数据结构 -- 无向图环检测

环的定义在无向图中出现回路，环不包含自环和平行边图中环检测 scala 实现CycleDetection.scalaimport util.control.Breaks.{break, _}class CycleDetection { var G: Graph = _ var visited: Array[Boolean] = _ var hasCycle = fal...

2019-10-14 20:59:22 893

Spark每提交一次任务就会启动一个web服务，可以在网页中查看任务执行的DAG图，执行花费时间…,随着任务结束而关闭。对于历史任务查看需要另外启动Spark History服务。(1) 修改spark-defaults.conf配置文件该文件在SPARK_HOME/conf/下，新安装的spark中只有spark-defaults.conf.template这个文件，改名为spark-def...

2019-10-05 18:08:35 1393

原创运维 -- CDH5.16.1集群企业真正离线部署

1. 准备安装包CMcloudera-manager-centos7-cm5.16.1_x86_64.tar.gzParcelCDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcelCDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel.sha1manifest.jsonJDKhttps://www.oracle.com/technetwo...

2019-10-04 13:13:16 328

原创运维 -- 在阿里云搭建hadoop集群，如何在购买和选择服务器

1. 点击创建实例2. 选择服务器1). 计费方式 :包年包月：费用过高，对于个人使用不推荐按量付费：用多少付多少钱，用完就摧毁，个人推荐这种2). 地域选择：选择离自己最近的地域，或者选择一个相对便宜的地域，如果这台服务器需要连接国际互联网就选择国外的，我选择张家口的可用分区A，随机分区（不推荐），如果购买多台服务器，必须选择同一的分区，保证所用的服务器的内网IP在同一个网段中...

2019-10-04 12:00:59 1485

原创 CDH安装过程中遇到的问题

hostname阿里云新机器的机器名是一个实例的名字，对于用户来说这个名字是很不友好的，需要根据用途重新定义机器名在hadoop001机器上执行 hostnamectl set-hostname hadoop001在hadoop002机器上执行 hostnamectl set-hostname hadoop002在hadoop003机器上执行 hostnamectl set-hostnam...

2019-10-01 15:20:37 1389

原创数据结构 -- 图的联通分量（scala版）

连通分量无向图G的极大连通子图称为G的连通分量( Connected Component)。任何连通图的连通分量只有一个，即是其自身，非连通的无向图有多个连通分量。如下，图中有两个连通分量。图算法中功能1).获得图中连通分量的个数2).判断两个顶点是否连通3).获取每个连通分量及其中的顶点集合scala实现import scala.collection.mutable.Arra...

2019-09-30 17:43:05 698

原创数据结构 -- 图的深度优先遍历（scala版）

图的深度优先遍历图的深度优先遍历是图算法中基础算法，一些高级的算法都是这个算法的变种深度优先遍历的主要思想：首先以一个未被访问过的顶点作为起始点v,依次从未访问的邻接点出发对图进行遍历，直到图中和v相连的顶点都被访问到，若图中有未被访问的则从一个未被访问的顶点出发重新进行遍历。scala实现图的深度优先遍历import scala.collection.mutable.ArrayBuff...

2019-09-29 17:05:02 532

原创数据结构 -- 图的基本表示：邻接表（scala版）

图图是一种复杂的非线性结构。图G由两个集合V(顶点Vertex)和E(边Edge)组成，定义为G=(V，E)底层存储结构存储结构有两种方式：链表存储：如上图二叉树存储：hash表、红黑树实现，hash表查询效率比红黑树略高，但需要更大的空间scala 实现import java.io.Fileimport java.util.Scannerimport scala.col...

2019-09-29 11:56:47 411

原创 sparkCore 知识点

1. RDD 五大特性A list of partitionsA function for computing each splitA list of dependencies on other RDDsOptionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)O...

2019-09-27 16:38:21 213

原创数据结构 -- 图的基本表示：邻接矩阵（scala版）

图图是一种复杂的非线性结构。图G由两个集合V(顶点Vertex)和E(边Edge)组成，定义为G=(V，E)表示图有两种主要用于表示图的方式：邻接表邻接矩阵scala邻接矩阵实现图import java.io.Fileimport java.util.Scannerclass AdjMatrix { var V = 0 // 节点 var E = 0 // 边...

2019-09-26 17:14:04 344

原创数据结构 -- 队列（scala版）

队列队列是一种特殊的线性表，特殊之处在于它只允许在表的前端（front）进行删除操作，而在表的后端（rear）进行插入操作，和栈一样，队列是一种操作受限制的线性表。进行插入操作的端称为队尾，进行删除操作的端称为队头。

2019-09-26 14:21:27 259

原创 scala知识点

1. val 和 var 区别val a = 1 不可变var b = 1 b =2 可变2. 基础数值类型的顶层接口AnyAnyValIntDoubleFloatLong…3. 函数可变长度参数 * def main(args: Array[String]): Unit = { mut("a") mut("a", "b") mut("a", ...

2019-09-06 01:17:57 359 2

原创虚拟机 vmware tools不能重装

虚拟机 vmware tools不能重装，安装VMware Tools一直未灰色。反复对比了发现正常的虚拟机有CD/DVD这一项，而不正常的没有。从下面添加中找到CD/DVD功能添加，并指定iso镜像的位置。...

2019-09-02 22:55:25 1940 1

原创 zookeeper -- 重点知识

1. ls 与 ls2 区别ls2 = ls + get2. zk 四字命令3. zk 中 CountDownLatch使用4. zk节点的版本号,如果不知道怎么版本号：就写 -1

2019-08-31 23:48:49 113

原创 MapReduce任务提交源码分析

MapReduce任务提交 API 调用顺序： waitForCompletion -》 submit -》submitJobInternal 主要的部分在 submitJobInternal1. 任务提交 waitForCompletionjob.waitForCompletion(true)2. 任务提交 submit3.任务提交 submitJobInternal3.1 ...

2019-08-31 18:20:31 225

原创数据 -- 模拟互联网日志数据

模拟生成互联网数据域名 baidu.com时间 [09/01/2019 00:01:02 +0800]流量 4090 一部分日志是正确（数值类型）一部分日志是错误的（字符串类型）ip x.x.x.ximport java.text.SimpleDateFormat;import java.util.Date;import java.util.Random;...

2019-08-31 00:49:01 534 2

原创 shell -- 使用案例

1.将当前目录下所有的.plt文件，移动到…/data目录中#!/bin/bashfind . $ -name "*.plt" $|while read pathdo mv $path '../data'done2.删除data目录下所有.plt文件前6行数据#!/bin/bashls data | while read pathdo sed -i '1,6...

2019-08-29 18:58:47 168

原创 Spark抽取转换182个用户的轨迹数据到ES，Kibana展示

GeoLife GPS Trajectories该GPS轨迹数据集出自微软研究GeoLift项目。从2007年四月到2012年八月收集了182个用户的轨迹数据。这些数据包含了一系列以时间为序的点，每一个点包含经纬度、海拔等信息。包含了17621个轨迹，总距离120多万公里，总时间48000多小时。这些数据不仅仅记录了用户在家和在工作地点的位置轨迹，还记录了大范围的户外活动轨迹，比如购物、旅游、远...

2019-08-29 18:51:24 856

原创 MapReduce -- InputFormat子类 CombineTextInputFormat / NLineInputFormat

TextInputFormat 是MapReduce默认InputFormatCombineTextInputFormat：主要用于小文件合并代码： public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); J...

2019-08-28 19:07:14 285

原创 MapReduce split个数和文件block个数关系

MapReduce split个数和文件block个数关系粗略计算 cout( block ) = cout( split )在文件块为 128M 时，129M文件只有分为一个split。在源码中文件切分规则为：当剩余文件大于split默认值的 110%时，继续切分文件，否则为一个切片。...

2019-08-28 00:34:03 925

原创 HDFS api按文件块下载，合并文件

HDFS 简介hdfs是hadoop中分布式的文件存储系统；具有高容错、可扩展；广泛的用于大数据项目中（不仅仅是hadoop）将257M的文件上传到hdfs[hadoop@hadoop000 spark-2.4.3]$ hdfs dfs -put spark-2.4.3-bin-2.6.0-cdh5.15.1.tgz /test/第一种：按文件块下载文件，然后拼接为一个完整的文件...

2019-08-27 00:01:37 675

空空如也

空空如也