- 博客(25)
- 资源 (1)
- 收藏
- 关注
原创 hive数据导入es外表,报错java.lang.IndexOutOfBoundsException:Index:74,Size:74
hive-es外表,导数任务报错java.lang.IndexOutOfBoundsException:Index:74,Size:74
2022-08-23 14:11:40 872
原创 hbase无法建表:org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
HBASE Master is initializing
2022-07-14 17:15:50 2144
原创 HDFS知识点整理
NameNode元数据管理NN的元数据是在内存中进行管理的,通过fsimage和edits log来进行磁盘化NN启动时加载一次fsimage到内存中对HDFS的操作会记录在Edits Log中,并且每个操作都有一个事务号,edits log文件就是以起始和末尾的事务号命名的。比如下图中的文件,记录的就是942391-942478的事务。edits log和fsimage之间通过checkpoint来实现同步,把edits log中的最新数据同步到fsimage中,可以观察fsimage的事务编
2020-12-18 14:40:12 168
原创 CDH集群常用通信端口汇总
Hadoop:50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口8019 : ZKFC端口19888:jobhistory WEB UI端口Zookeeper:2181 : 客户端连接zookeeper的端口2888 : zookeeper集群内通讯使用,Leader监听此端口3888 : zookeep
2020-10-30 19:08:34 2706
原创 CDH参数
HDFShdfs block存储位置:dfs.datanode.data.dirfsimage存储位置:dfs.namenode.name.diredits log存储位置:dfs.namenode.edits.dirDN每块磁盘不能被hdfs使用的空间:dfs.datanode.du.reserved默认10GB,一般建议单盘空间25%bolck块大小:dfs.blocksizebolck副本数:dfs.replicationYarn日志汇聚功能:yarn.log-aggregat
2020-10-21 18:03:22 509
原创 CDH6中的各种目录
Service Monitor:Service Monitor存储了时间序列和健康数据。Impla查询的元数据,Yarn应用的元数据。默认情况下,数据时存储在/var/lib/cloudera-service-monitor/文件夹下。Host Monitor:Host Monitor存储了时间序列和健康数据。默认情况下,数据存储在/var/lib/cloudera-host-monitor/文件夹下。cloudera官网介绍server/agent日志/var/log/cloudera-scm
2020-09-30 17:00:13 3839
原创 CDH环境问题(持续更新。。。)
环境CDH 6.1.0centos7五台VM虚拟机,内网添加节点在VM中克隆已有节点,将克隆后的节点通过Cloudera Manager 添加到集群中,安装过程中报错:安装失败。 无法接收 Agent 发出的检测信号。排查日志发现连接不上管理节点7182端口:Heartbeating to master:7182 failed。 但是telnet可以通。卸载agent后重装也不行。原因是,这台虚拟机是克隆别的节点的,已经有agent的UUID了,和别的节点冲突,首次启动Agent,它会生成一个
2020-09-29 17:01:25 388
原创 CDH6集群迁移(IP地址更改)操作文档
CDH6集群迁移(IP地址更改)操作文档1、更改IP地址:2、更改host:3、server节点上修改MySQL数据库,4、更改agent配置5、更改yum仓库地址6、检查ntp配置7、检查ssh是否能连通8、启动server、agent:1、更改IP地址:vi /etc/sysconfig/network-scripts/ifcng-ens332、更改host:vi /etc/hosts3、server节点上修改MySQL数据库,mysql -u root -puse scm;select
2020-09-29 14:09:59 790
转载 MapReduce提交job到Yarn的流程学习
引言以MapReduce为例,提交一个MapReduce application的大致流程如下,其中Resource Manager简写为RM,Node Manager简写为NM,Application Master简写为AM。Top↑提交application大致流程(1)首先client里执行一个MapReduce程序,这个程序运行在client端的JVM里,在main方法中最...
2019-12-04 16:04:14 222
原创 PySpark Aggregrate函数用法
Spark官方文档中解释为:seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue. seqOp的操作是遍历分区中的所有元素(T),第一个T跟zeroValue做操作,结果再作为与第二个T做操作的zeroValue,直到遍历完整个分区。combOp操作是把各分区聚合的结果,再聚合。aggregate函数返回一个跟RDD不同类...
2018-03-27 16:13:19 711 1
原创 Scala-"_"的用法
1、作为“通配符”,类似Java中的*。如import scala.math._2、:_*作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶数,并乘以2,可以用以下办法: a.filter(%2==0).map(2*)。 又如要对缓冲数组
2016-08-23 10:21:11 363
原创 Linux命令笔记
添加定时任务:crontab -e,在文件中写属于当前用户的定时任务,输入如下内容: 23 11 10 02 * /mnt/kettle/test.sh 其中 23为分钟,11为小时,10为日,02为月,*为星期几centos 7定时任务重启:/bin/systemctl restart crond.service
2016-08-18 09:06:48 234
原创 scala 学习笔记--对象
一、对象 1.伴生对象:与类同名的对象,类和它的伴生对象可以相互访问私有特性,但是它们必须存在于同一个源文件中。 2.对象的apply方法:经常被用在伴生对象中,可以不用构造器,省去new关键字,方便很多。注意Array(100)与new Array(100)的区别:Array(100) //调用的是apply(100),输出一个只含有一个元素(100)的Arrayne
2016-08-15 16:07:21 272
原创 不平衡数据分类方法总结
传统的分类算法在面向不平衡数据时,效果一般,尤其是对少数类的判断准确率很低,而现实生活中少数类往往是比多数类更有价值的。例如,网络安全预测中,可能1000次通信只有几次是真的网络攻击,但是将正常通信判断为攻击和将攻击判断为正常通信带来的后果是完全不同的,我们其实更在意判断是网络攻击的准确率。 针对不平衡数据,我们往往从数据和算法两个层面来进行处理: (一)数据层面
2016-07-26 11:42:45 3722
转载 随机森林
01 树与森林在构建决策树的时候,可以让树进行完全生长,也可以通过参数控制树的深度或者叶子节点的数量,通常完全生长的树会带来过拟合问题。过拟合一般由数据中的噪声和离群点导致,一种解决过拟合的方法是进行剪枝,去除树的一些杂乱的枝叶。注:你可能需要参考前面的文章:《0x0B 菩提决策树,姻缘算法求》实际应用中,一般可用随机森林来代替,随机森林在决策树的基础上,会有更好的表现,尤其是防止过拟
2016-07-15 11:37:45 3097
转载 逻辑回归
一、逻辑回归的认识逻辑回归是一个用来解决二分类的简便方法。先来看看逻辑回归解决二分类的基本思想。之前写了线性回归,现在写逻辑回归~都叫回归,有什么不同呢?首先,从机器学习的角度说一下。机器学习中,有两个问题是比较相似的,即预测和分类。通常将模型的输出是有限的离散值的问题称为分类问题,而将模型的输出是连续值的问题称为预测。不同的两个问题自然有不同的解决方法,对于预测问题,通常采用回归分析
2016-06-29 15:40:35 818
转载 线性回归与特征归一化(feature scaling)
线性回归是一种回归分析技术,回归分析本质上就是一个函数估计的问题(函数估计包括参数估计和非参数估计),就是找出因变量和自变量之间的因果关系。回归分析的因变量是应该是连续变量,若因变量为离散变量,则问题转化为分类问题,回归分析是一个有监督学习问题。线性其实就是一系列一次特征的线性组合,在二维空间中是一条直线,在三维空间中是一个平面,然后推广到n维空间,可以理解维广义线性吧。例如对房屋的价格预
2016-06-27 11:26:22 13340 1
转载 Java对象序列化
1. 什么是Java对象序列化Java平台允许我们在内存中创建可复用的Java对象,但一般情况下,只有当JVM处于运行时,这些对象才可能存在,即,这些对象的生命周期不会比JVM的生命周期更长。但在现实应用中,就可能要求在JVM停止运行之后能够保存(持久化)指定的对象,并在将来重新读取被保存的对象。Java对象序列化就能够帮助我们实现该功能。使用Java对象序列化,在保存对象时,会把
2015-09-16 19:59:59 273
禅道使用手册.pdf
2019-11-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人