自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 资源 (1)
  • 收藏
  • 关注

原创 G1 GC基本逻辑

每次回收的间隔是由G1自己控制的,回收执行次数可以通过参数-XX:G1MixedGCCountTarget来设置,这个参数默认回收次数是8次,同时有一个参数-XX:G1HeapWastePercent,默认值是整个堆大小5%,就是说当前回收集合内即将空出来的区域大于整个堆的5%,就会立即停止混合回收了。如下图,先停止系统程序的运行,然后对各个线程栈内存中的局部变量代表的GC Roots,以及方法区中的类静态变量代表的GC Roots,进行扫描,标记出来他们直接引用的那些对象。2)老年代的区域已经满了。

2023-12-08 15:01:32 494 1

原创 线性回归原理与使用

1 回归预测年薪 = 0.5 * 工作年限 + 0.7 * 学历数值回归的目的就是预测 数值型的目标值。求解回归方程式 系数 (0.5 ,0.7)的过程就是 回归。2 简单线性回归样本特征只有一个的线性回归 ,称为简单线性回归。举例: 房屋面积与价格的关系 y = a x + b3 最小二乘法第一个距离度量值可能为0第二个 非连续不可导,求解麻烦。

2023-04-28 20:29:10 556

原创 机器学习-特征缩放

从数值来看, 年份和工资相比数值太小, 对整个模型的影响基本上可以忽略。(方差计算的是数据平方, 个体数据相差值会放大,所以开方求平方根可以缩小换算回来。机器学习中, 特征值通常相差比较巨大, 不同维度的特征值相差巨大,导致部分特征影响微乎其微, 用来做训练效果不好。Xnew = x - mean(x) / std(x) [均值 标准差】举个例子, 工作年数和 工资收入作为特征值,来构建预测模型。因此,我们需要对特征值进行缩放, 已规避数值差异带来的影响。

2023-03-29 17:03:49 1103

原创 KNN算法

输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。k-近邻算法也可以像我们人一样做到这一点,不同的地方在于,我们的经验更”牛逼”,而k-邻近算法是靠已有的数据。如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。

2023-03-28 11:13:30 160

原创 kafka异常解决

NotAssignedReplicaException kafka.common.KafkaException: Should not set log end offset

2022-10-30 23:40:18 2530

原创 flink 分组聚合算子

flink reduce

2022-10-21 19:38:25 1164

原创 centos7.6配置iptables

1 常用配置2 配置信息保存

2021-06-18 19:42:05 1383 1

原创 Mongodb 权限管理及常用命令

1 用户权限2 创建管理员:以非授权模式开启mongoDB服务。mongod--port27017--dbpath/data/db然后进入admin数据库,执行如下命令:use admindb.createUser( { user: "myadmin", pwd: "myadmin", roles: [ { role: "userAdminAnyDatabase", db: "admin" } ] })3 创建普通用户3.1以...

2021-05-18 15:36:51 1177

原创 spark参数调优

1 OOM 优化Container killed by YARN for exceeding memory limits. 19 GB of 16 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead 问题原因1: 数据倾斜或数据量太大,导致executor处理的数据量太大超过executor内存限制。 解决办法: 一般加大execut...

2021-05-12 14:38:16 1042

原创 mysql常用操作

1 连接数据库:1.1 连接如下表示 账号root 密码123456 连接到mysql服务器 host-02mysql -uroot -p123456 -h host-02如果不指定-h, 则默认连接当前服务器(localhost)1.2 连接权限 查看在很多情况下,创建用户时,就指定了用户连接数据库的权限。创建用户dumper具备在任意节点(%)连接mysql服务器的权限create user dumper@'%' identified by '123456',...

2021-05-06 18:22:28 144

原创 spark join 及优化

一 spark常用的join形式:1broadcast hash join (小表 大表 join)1.1)没有加hint, 满足如下条件,也会产生broadcast join: 1)被广播的表需要小于 spark.sql.autoBroadcastJoinThreshold 所配置的值,如果没有配置,则默认是10M。 2)被广播的表不能是基表,比如 left outer join 时,只能广播右表。 如果将 spark.sql.autoBroadc...

2021-04-14 20:59:01 2765

原创 impala hive启用LDAP hue (cdh6.3)

1 配置impala:注意: 上述互斥项,如果使用ldap的uid,直接配置上面一个。 如果使用ldap的cn,则配置下一项: cn=#UID,ou=People,dc=...,dc=com2 配置HIVEHIVE默认使用 LDAP uid认证,如果LDAP配置的使用cn, 可以通过配置下述参数参数:hive.server2.authentication.ldap.userDNPattern值:cn=%s,ou=People,dc=tcl,dc=c...

2021-03-30 12:24:36 1242

原创 open LDAP 简述

一:基础概念1 schema 相当于类和属性定义所有的objectClass和attribute都定义在Schema里。不同的schema定义的属性可以相互使用。openldap定义的schema文件路径:/etc/openldap/schema/安装openldap后,我们需要导入一些基本的 Schema# 我们需要向 LDAP 中导入一些基本的 Schema。这些 Schema 文件位于 /etc/openldap/sc...

2021-03-18 20:11:55 554

原创 yarn WEB UI及reserved memory、spark WEB UI

1 yarn web ui: Apps Submitted:已提交的应用 Apps Completed:已完成的应用 Apps Running:正在运行的应用 Containers Running:正在运行的容器 Memory Total:集群总内存 Memory Used:已使用内存 VCores Total:集群 CPU 总核数 VCores Used:已使用的 CPU 核数 Memory Reserved:预..

2021-03-02 14:27:01 4691 1

原创 idea 创建项目

搞了很多次,总是忘记。现在记录下来,以备查用1 完全新建一个项目。这个比较简单。 new project 指定SDK ,指定项目路径 。。。,自动创建src源码路径,并产生pom.xml。此步骤产生的pom.xml缺少很多必要的插件,需要手动配置。https://jingyan.baidu.com/article/48b558e3f8f6637f39c09a44.html2 从git下载一个项目源码后构建项目【常见】。注意先把项目路径下的 .idea目录删除St...

2020-07-23 20:13:21 246

原创 CDH6.3.1 solr安装

1 cluster1集群, 添加服务,选择solr2 集群安装即solr云,选择3台机器安装,完成即可3 安装完成后,可以点击solr实例,任意节点的实例 查看WEB UI,正常应该如下:4 安装问题:4.1 问题描述:第一次安装后,WEB UI无法打开,总是报错:javax.servlet.UnavailableException: Error processing the request. CoreContainer is either not initial...

2020-07-14 11:10:06 1067

原创 CDH mysql 元数据库备份

1 前言mysql-client和mysql-servermysql-client操作mysql实例的客户端有很多,mysql-client只是其中一种,包括mysql,mysqldump,mysqlslap,这些访问,备份,压力测试的工具。mysql-server是服务端,也就是说,你服务端没安装,客户端没对象去操作。2 安装mysql-client端元2.1 先卸载marial db的库包rpm -qa|grep mariadbrpm -e --nodeps maria...

2020-07-01 20:07:06 629

原创 hbase LSM原理

hbase的写入性能远超一般的关系数据库,而且读取性能也不差。原理是怎么样的呢,这里主要是用到了LSM算法。1 传统关系性数据库查询,主要是基于索引。 大部分都是B树和B+数来实现。有关B,B+树的数据结构可以参考如下2篇文章:B树_程序袁小黑-CSDN博客_b树 :https://blog.csdn.net/ydonghao2/article/details/82286580https://www.cnblogs.com/xueqiuqiu/articles/8779029....

2020-06-29 21:19:38 374

原创 CDH impala安装使用

1 CDH 安装impala 1.1 直接选择 cluster, 服务添加服务即可。 1.2 安装时,注意组件impalad 基本同datanode一致。 而 catalogd,statestored不限。2 组件2.1 Impala Daemon  impalad是Impala的核心进程,运行在所有的数据节点上,可以读写数据,并接收客户端的查询请求,并行执行来自集群中其他节点的查询请求,将中间结果返回给调度节点。调用节点将结果返回给客户端。用户在impal...

2020-06-28 21:19:38 1251

原创 spark 参数配置及内存模型

1spark 提交主要参数1.1 num-executors此数量代表 spark的executors数量, 所有的task在executor中运行。1.2 executor-cores此数值代表每个 executor中可以并行运行的task数。 一般一个任务使用1核,此值等同于1个executor占用的CPU核心数。1.3 executor-memory此参数指定了每个 executor占用的内存。注: 即使是executor-cores=4,并行运算的4个...

2020-06-11 12:23:03 6219

原创 namenode状态standby导致hadoop运行故障

1 CDH强制手动切换HA下active namenode后报如下错误:(nn1切换为standby,nn2切换为active) hadoop和hive执行报错,如下错误信息: Operation category READ is not supported in state standby.........2.重新启动zkfc(在sbin目录下)如果...

2020-04-27 15:01:02 524

原创 CDH6.0 取消kerberos认证

首先停止集群所有服务。1 zookeeper 1.1 enableSecurity取消勾选。1.2 取消勾选sasl2HDFS修改Hadoop的安全身份验证第一个选为simple,第二个取消勾选修改DataNode的数据目录权限为755(原值为700)修改DataNode服务的端口号,分别修改为9866和...

2020-04-22 12:22:17 1763 1

原创 YARN JOB HISTORYRI日志故障: Aggregation may not be complete

1 运行的spark job和MR ,HIVE,flink都无法查看yarn容器运行日志。查看yarn job历史服务器运行日志,发现如下错误信息: yarn job history 根据如下提示信息,可以知道是哪个节点。如下为hadoop002节点。job history进程日志信息位于: /var/log//var/log/hadoop-mapreduce/hadoop...

2020-04-20 17:04:23 1770

转载 Flink 写HDFS之BucketingSink

Flink写HDFS,目前常用的有 BucketingSink, StreamingFileSink. BucketingSink后续会被StreamingFileSink替代。不过功能实现都还是很强大的。 Streaming支持一些BucketingSink不支持的特性,如S3, parquet格式写等等,1 代码示例:impor...

2020-04-15 23:52:23 1820

原创 HDFS故障:Namenode安全模式:The reported blocks 12xx needs additional xx blocks to reach the threshold 0.999

1 CDH环境,HDFS无法做任何操作,报错信息连接Namenode节点失败,处于safemode。2 查看HDFS 实例,红色警告,不能创建/tmp/.cloudera.....3 查看 namenode日志: /var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-cdh00.log.out报错信息:org.apache.......

2020-04-15 19:34:20 6764

原创 kafka 故障: 监控出现 offline partition 1个和大量under replicated 状态分区.

1 CDH Kafka实例出现红色告警offline partition2 查看CDH 图表实例:发现从4月14号3:20 ,到今天4月15号一直保持offline partitions数量和under replicated数量不变。3 在命令行查看under replicated parttion 状态的topic./kafka-topics.sh --d...

2020-04-15 12:23:00 8453 1

原创 CDH6使用kafkamirror进行跨集群数据迁移

1 环境说明。 源集群kafka使用了kerberos安全认证 目标集群没有使用安全认证。2 配置步骤: 2.1 添加kafkamirror2.2添加 Kafka 源集群和目标集群配置2.3 配置需要同步的topic.逗号分隔支持。| 分隔 所有topic: ^.*, 为正则表达式。2.3 有些老版本的CDH可能要配置z...

2020-04-10 12:47:40 631

原创 JAVA kerberos认证 读写kafka

1 直接上代码:public class JavaKafkaWithKerberos { public static void main(String[] args) throws Exception{ System.setProperty("java.security.auth.login.config", "d:/myconf/jaas.conf"); ...

2020-04-07 18:44:55 1259

原创 Flink读写Kerberos认证Kafka环境。

Flink比较完美的支持kerberos读写Kafka.1flink-conf.yaml , 将如下涉及kerberos的配置注解去除2 代码读写kafka示例如下:def main(args: Array[String]): Unit = { val params: ParameterTool = ParameterTool.fromArgs(args)...

2020-04-07 11:44:34 5958 4

原创 Kafka配置kerberos(CDH)

参考文档:https://www.jianshu.com/p/dd73b318e743 vi jaas.confKafkaClient{com.sun.security.auth.module.Krb5LoginModule requireduseTicketCache=true;renewTicket=true;};vi client...

2020-03-08 23:00:42 2628

原创 flink源码解读--3 CliFrontend.run

参考文档:https://blog.csdn.net/weixin_43161811/article/details/103152867入口命令(参看第一篇文章):java ClientFrontend run -c com.tclking.ai.PVUVDayMain -m yarn-cluster examples/batch/WordCount.jarClientFron...

2020-01-21 18:59:38 607

原创 flink源码解读--2 入口类CliFrontend

参考文章:https://blog.csdn.net/weixin_43161811/article/details/103151644从上篇文章,我们知道,flink脚本提交后,由CliFrontend main开始执行。/** Submits the job based on the arguments. */ public static void main(final...

2020-01-21 11:04:18 916

原创 flink源码解读--1 命令行提交

1 提交自己打包的流job./bin/flinkrun -c com.tclking.ai.PVUVDayMain -m yarn-cluster examples/batch/WordCount.jar2 flink 脚本内容:target="$0"iteration=0# 判断脚本名合法性while [ -L "$target" ]; do if...

2020-01-21 09:47:46 522

原创 JAVA8 Lamda函数

1 lamda函数概念 简单理解为匿名函数: public int add(int x, int y) { return x + y; }转成 lamda函数:(int x, int y) -> x + y;或者(x, y) -> x + y;编译器可以自动识别参数类型2 lamda类型lamda表达式的类型,叫做“目...

2020-01-20 12:28:58 624

原创 HIVE数据迁移

方案一: distcp,速度超快。1 再旧集群查看数据库表脚本show create table dbname.tablename;2 在新集群建库建表3 老库的hive hdfs目录复制到目标集群distcp在目标环境执行:hadoop distcp hdfs://sourcenamenode:8020/user/hive/warehouse/ml.db/te...

2020-01-02 10:59:08 423

原创 flink水印

1 kafka数据源,设置水印,一般直接在数据源消费者上加载。如下:2 水印并发度设置2.1 对于kafka数据源。 我们设置并发度一般设置topic对应的分区数。如果分区数为2,则为2。如果设置为4, 实际上即时启动了4个task,也只有2个真正消费数据并产生水印。另外2个task一致在等待,不会发出水印。如下图,为分区为2,设置并发度为4的情况,可以看...

2019-12-20 15:59:16 351

原创 windows下搭建tensorflow开发环境

1 安装cuda 10.0下载地址:https://developer.nvidia.com/cuda-toolkit-archive参考文档:https://blog.csdn.net/weixin_44307764/article/details/94909104https://blog.csdn.net/weixin_45023983/article/details/991786...

2019-12-06 13:38:34 390

原创 tensorflow on spark安装

基于centos7.5,安装OS时安装包比较齐全。1 Python安装。需要Python 3.5+1.1wget --no-check-certificate https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz1.2 解压编译安装到:/usr/local/python3 ./configure --pr...

2019-12-05 13:41:43 618

原创 flink checkpoint

1 原理flink通过checkpoint来进行状态保存,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态, 保证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法,通过checkpoint频率时间定时发送barrier消息。 (分布式快照算)...

2019-11-20 18:59:07 396

转载 Flink内存管理: 网络传输内存network buffer及堆内存管理

1 Flink背压原理任务A写, 任务B读, 2者都是先申请 local buffer pool, 满了之后再向network buffer pool申请。消费下游: local buffer pool和network buffer pool满了之后,发送消息给上游(ResultSubparittion),上有不在发送消息,下游的 input channel将不会接受到新的数...

2019-11-18 20:47:18 3167

ireport帮助入门

ireport入门资料

2008-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除