自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

peidezhi的专栏

原创 G1 GC基本逻辑

每次回收的间隔是由G1自己控制的，回收执行次数可以通过参数-XX:G1MixedGCCountTarget来设置，这个参数默认回收次数是8次，同时有一个参数-XX:G1HeapWastePercent，默认值是整个堆大小5%，就是说当前回收集合内即将空出来的区域大于整个堆的5%，就会立即停止混合回收了。如下图，先停止系统程序的运行，然后对各个线程栈内存中的局部变量代表的GC Roots，以及方法区中的类静态变量代表的GC Roots，进行扫描，标记出来他们直接引用的那些对象。2）老年代的区域已经满了。

2023-12-08 15:01:32 1231 1

原创线性回归原理与使用

1 回归预测年薪 = 0.5 * 工作年限 + 0.7 * 学历数值回归的目的就是预测数值型的目标值。求解回归方程式系数（0.5 ，0.7）的过程就是回归。2 简单线性回归样本特征只有一个的线性回归，称为简单线性回归。举例：房屋面积与价格的关系 y = a x + b3 最小二乘法第一个距离度量值可能为0第二个非连续不可导，求解麻烦。

2023-04-28 20:29:10 641

原创机器学习-特征缩放

从数值来看，年份和工资相比数值太小，对整个模型的影响基本上可以忽略。（方差计算的是数据平方，个体数据相差值会放大，所以开方求平方根可以缩小换算回来。机器学习中，特征值通常相差比较巨大，不同维度的特征值相差巨大，导致部分特征影响微乎其微，用来做训练效果不好。Xnew = x - mean(x) / std(x) [均值标准差】举个例子，工作年数和工资收入作为特征值，来构建预测模型。因此，我们需要对特征值进行缩放，已规避数值差异带来的影响。

2023-03-29 17:03:49 1319

原创 KNN算法

输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。k-近邻算法也可以像我们人一样做到这一点，不同的地方在于，我们的经验更”牛逼”，而k-邻近算法是靠已有的数据。如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

2023-03-28 11:13:30 251

原创 kafka异常解决

NotAssignedReplicaException kafka.common.KafkaException: Should not set log end offset

2022-10-30 23:40:18 3284

原创 flink 分组聚合算子

flink reduce

2022-10-21 19:38:25 1232

原创 centos7.6配置iptables

1 常用配置2 配置信息保存

2021-06-18 19:42:05 1486 1

原创 Mongodb 权限管理及常用命令

1 用户权限2 创建管理员：以非授权模式开启mongoDB服务。mongod--port27017--dbpath/data/db然后进入admin数据库，执行如下命令：use admindb.createUser( { user: "myadmin", pwd: "myadmin", roles: [ { role: "userAdminAnyDatabase", db: "admin" } ] })3 创建普通用户3.1以...

2021-05-18 15:36:51 1589

原创 spark参数调优

1 OOM 优化Container killed by YARN for exceeding memory limits. 19 GB of 16 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead 问题原因1：数据倾斜或数据量太大，导致executor处理的数据量太大超过executor内存限制。解决办法：一般加大execut...

2021-05-12 14:38:16 1248

原创 mysql常用操作

1 连接数据库：1.1 连接如下表示账号root 密码123456 连接到mysql服务器 host-02mysql -uroot -p123456 -h host-02如果不指定-h, 则默认连接当前服务器（localhost)1.2 连接权限查看在很多情况下，创建用户时，就指定了用户连接数据库的权限。创建用户dumper具备在任意节点（%）连接mysql服务器的权限create user dumper@'%' identified by '123456'，...

2021-05-06 18:22:28 238

原创 spark join 及优化

一 spark常用的join形式：1broadcast hash join （小表大表 join）1.1）没有加hint, 满足如下条件，也会产生broadcast join： 1）被广播的表需要小于 spark.sql.autoBroadcastJoinThreshold 所配置的值，如果没有配置，则默认是10M。 2）被广播的表不能是基表，比如 left outer join 时，只能广播右表。如果将 spark.sql.autoBroadc...

2021-04-14 20:59:01 3193

原创 impala hive启用LDAP hue (cdh6.3)

1 配置impala:注意：上述互斥项，如果使用ldap的uid，直接配置上面一个。如果使用ldap的cn，则配置下一项： cn=#UID,ou=People,dc=...,dc=com2 配置HIVEHIVE默认使用 LDAP uid认证，如果LDAP配置的使用cn, 可以通过配置下述参数参数：hive.server2.authentication.ldap.userDNPattern值：cn=%s,ou=People,dc=tcl,dc=c...

2021-03-30 12:24:36 1519

原创 open LDAP 简述

一：基础概念1 schema 相当于类和属性定义所有的objectClass和attribute都定义在Schema里。不同的schema定义的属性可以相互使用。openldap定义的schema文件路径：/etc/openldap/schema/安装openldap后，我们需要导入一些基本的 Schema# 我们需要向 LDAP 中导入一些基本的 Schema。这些 Schema 文件位于 /etc/openldap/sc...

2021-03-18 20:11:55 678

原创 yarn WEB UI及reserved memory、spark WEB UI

1 yarn web ui: Apps Submitted：已提交的应用 Apps Completed：已完成的应用 Apps Running：正在运行的应用 Containers Running：正在运行的容器 Memory Total：集群总内存 Memory Used：已使用内存 VCores Total：集群 CPU 总核数 VCores Used：已使用的 CPU 核数 Memory Reserved：预..

2021-03-02 14:27:01 5590 1

原创 idea 创建项目

搞了很多次，总是忘记。现在记录下来，以备查用1 完全新建一个项目。这个比较简单。 new project 指定SDK ,指定项目路径。。。，自动创建src源码路径，并产生pom.xml。此步骤产生的pom.xml缺少很多必要的插件，需要手动配置。https://jingyan.baidu.com/article/48b558e3f8f6637f39c09a44.html2 从git下载一个项目源码后构建项目【常见】。注意先把项目路径下的 .idea目录删除St...

2020-07-23 20:13:21 292

原创 CDH6.3.1 solr安装

1 cluster1集群，添加服务，选择solr2 集群安装即solr云，选择3台机器安装，完成即可3 安装完成后，可以点击solr实例，任意节点的实例查看WEB UI，正常应该如下:4 安装问题：4.1 问题描述：第一次安装后，WEB UI无法打开，总是报错：javax.servlet.UnavailableException: Error processing the request. CoreContainer is either not initial...

2020-07-14 11:10:06 1181

原创 CDH mysql 元数据库备份

1 前言mysql-client和mysql-servermysql-client操作mysql实例的客户端有很多，mysql-client只是其中一种，包括mysql，mysqldump，mysqlslap，这些访问，备份，压力测试的工具。mysql-server是服务端，也就是说，你服务端没安装，客户端没对象去操作。2 安装mysql-client端元2.1 先卸载marial db的库包rpm -qa|grep mariadbrpm -e --nodeps maria...

2020-07-01 20:07:06 698

原创 hbase LSM原理

hbase的写入性能远超一般的关系数据库，而且读取性能也不差。原理是怎么样的呢，这里主要是用到了LSM算法。1 传统关系性数据库查询，主要是基于索引。大部分都是B树和B+数来实现。有关B,B+树的数据结构可以参考如下2篇文章：B树_程序袁小黑-CSDN博客_b树：https://blog.csdn.net/ydonghao2/article/details/82286580https://www.cnblogs.com/xueqiuqiu/articles/8779029....

2020-06-29 21:19:38 423

原创 CDH impala安装使用

1 CDH 安装impala 1.1 直接选择 cluster, 服务添加服务即可。 1.2 安装时，注意组件impalad 基本同datanode一致。而 catalogd,statestored不限。2 组件2.1 Impala Daemon　　impalad是Impala的核心进程，运行在所有的数据节点上，可以读写数据，并接收客户端的查询请求，并行执行来自集群中其他节点的查询请求，将中间结果返回给调度节点。调用节点将结果返回给客户端。用户在impal...

2020-06-28 21:19:38 1349

原创 spark 参数配置及内存模型

1spark 提交主要参数1.1 num-executors此数量代表 spark的executors数量，所有的task在executor中运行。1.2 executor-cores此数值代表每个 executor中可以并行运行的task数。一般一个任务使用1核，此值等同于1个executor占用的CPU核心数。1.3 executor-memory此参数指定了每个 executor占用的内存。注：即使是executor-cores=4，并行运算的4个...

2020-06-11 12:23:03 7202 1

原创 namenode状态standby导致hadoop运行故障

1 CDH强制手动切换HA下active namenode后报如下错误：（nn1切换为standby,nn2切换为active） hadoop和hive执行报错，如下错误信息： Operation category READ is not supported in state standby.........2.重新启动zkfc（在sbin目录下）如果...

2020-04-27 15:01:02 644

原创 CDH6.0 取消kerberos认证

首先停止集群所有服务。1 zookeeper 1.1 enableSecurity取消勾选。1.2 取消勾选sasl2HDFS修改Hadoop的安全身份验证第一个选为simple，第二个取消勾选修改DataNode的数据目录权限为755（原值为700）修改DataNode服务的端口号，分别修改为9866和...

2020-04-22 12:22:17 2007 1

原创 YARN JOB HISTORYRI日志故障： Aggregation may not be complete

1 运行的spark job和MR ，HIVE，flink都无法查看yarn容器运行日志。查看yarn job历史服务器运行日志，发现如下错误信息： yarn job history 根据如下提示信息，可以知道是哪个节点。如下为hadoop002节点。job history进程日志信息位于： /var/log//var/log/hadoop-mapreduce/hadoop...

2020-04-20 17:04:23 1979

转载 Flink 写HDFS之BucketingSink

Flink写HDFS，目前常用的有 BucketingSink， StreamingFileSink. BucketingSink后续会被StreamingFileSink替代。不过功能实现都还是很强大的。 Streaming支持一些BucketingSink不支持的特性，如S3, parquet格式写等等，1 代码示例：impor...

2020-04-15 23:52:23 1943

原创 HDFS故障：Namenode安全模式：The reported blocks 12xx needs additional xx blocks to reach the threshold 0.999

1 CDH环境，HDFS无法做任何操作，报错信息连接Namenode节点失败，处于safemode。2 查看HDFS 实例，红色警告，不能创建/tmp/.cloudera.....3 查看 namenode日志: /var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-cdh00.log.out报错信息：org.apache.......

2020-04-15 19:34:20 7495

原创 kafka 故障：监控出现 offline partition 1个和大量under replicated 状态分区.

1 CDH Kafka实例出现红色告警offline partition2 查看CDH 图表实例：发现从4月14号3：20 ，到今天4月15号一直保持offline partitions数量和under replicated数量不变。3 在命令行查看under replicated parttion 状态的topic./kafka-topics.sh --d...

2020-04-15 12:23:00 9231 1

原创 CDH6使用kafkamirror进行跨集群数据迁移

1 环境说明。源集群kafka使用了kerberos安全认证目标集群没有使用安全认证。2 配置步骤： 2.1 添加kafkamirror2.2添加 Kafka 源集群和目标集群配置2.3 配置需要同步的topic.逗号分隔支持。| 分隔所有topic: ^.*, 为正则表达式。2.3 有些老版本的CDH可能要配置z...

2020-04-10 12:47:40 691

原创 JAVA kerberos认证读写kafka

1 直接上代码：public class JavaKafkaWithKerberos { public static void main(String[] args) throws Exception{ System.setProperty("java.security.auth.login.config", "d:/myconf/jaas.conf"); ...

2020-04-07 18:44:55 1354

原创 Flink读写Kerberos认证Kafka环境。

Flink比较完美的支持kerberos读写Kafka.1flink-conf.yaml , 将如下涉及kerberos的配置注解去除2 代码读写kafka示例如下：def main(args: Array[String]): Unit = { val params: ParameterTool = ParameterTool.fromArgs(args)...

2020-04-07 11:44:34 6255 4

原创 Kafka配置kerberos(CDH)

参考文档：https://www.jianshu.com/p/dd73b318e743 vi jaas.confKafkaClient{com.sun.security.auth.module.Krb5LoginModule requireduseTicketCache=true;renewTicket=true;};vi client...

2020-03-08 23:00:42 3030

原创 flink源码解读--3 CliFrontend.run

参考文档：https://blog.csdn.net/weixin_43161811/article/details/103152867入口命令(参看第一篇文章)：java ClientFrontend run -c com.tclking.ai.PVUVDayMain -m yarn-cluster examples/batch/WordCount.jarClientFron...

2020-01-21 18:59:38 687

原创 flink源码解读--2 入口类CliFrontend

参考文章：https://blog.csdn.net/weixin_43161811/article/details/103151644从上篇文章，我们知道，flink脚本提交后，由CliFrontend main开始执行。/** Submits the job based on the arguments. */ public static void main(final...

2020-01-21 11:04:18 993

原创 flink源码解读--1 命令行提交

1 提交自己打包的流job./bin/flinkrun -c com.tclking.ai.PVUVDayMain -m yarn-cluster examples/batch/WordCount.jar2 flink 脚本内容：target="$0"iteration=0# 判断脚本名合法性while [ -L "$target" ]; do if...

2020-01-21 09:47:46 582

原创 JAVA8 Lamda函数

1 lamda函数概念简单理解为匿名函数： public int add(int x, int y) { return x + y; }转成 lamda函数：(int x, int y) -> x + y;或者(x, y) -> x + y;编译器可以自动识别参数类型2 lamda类型lamda表达式的类型，叫做“目...

2020-01-20 12:28:58 696

原创 HIVE数据迁移

方案一： distcp，速度超快。1 再旧集群查看数据库表脚本show create table dbname.tablename;2 在新集群建库建表3 老库的hive hdfs目录复制到目标集群distcp在目标环境执行：hadoop distcp hdfs://sourcenamenode:8020/user/hive/warehouse/ml.db/te...

2020-01-02 10:59:08 476

原创 flink水印

1 kafka数据源，设置水印，一般直接在数据源消费者上加载。如下：2 水印并发度设置2.1 对于kafka数据源。我们设置并发度一般设置topic对应的分区数。如果分区数为2，则为2。如果设置为4，实际上即时启动了4个task，也只有2个真正消费数据并产生水印。另外2个task一致在等待，不会发出水印。如下图，为分区为2，设置并发度为4的情况，可以看...

2019-12-20 15:59:16 428

原创 windows下搭建tensorflow开发环境

1 安装cuda 10.0下载地址：https://developer.nvidia.com/cuda-toolkit-archive参考文档：https://blog.csdn.net/weixin_44307764/article/details/94909104https://blog.csdn.net/weixin_45023983/article/details/991786...

2019-12-06 13:38:34 457

原创 tensorflow on spark安装

基于centos7.5，安装OS时安装包比较齐全。1 Python安装。需要Python 3.5+1.1wget --no-check-certificate https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz1.2 解压编译安装到：/usr/local/python3 ./configure --pr...

2019-12-05 13:41:43 699

原创 flink checkpoint

1 原理flink通过checkpoint来进行状态保存，可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时，能够将整个应用流图的状态恢复到故障之前的某一状态，保证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法，通过checkpoint频率时间定时发送barrier消息。 (分布式快照算)...

2019-11-20 18:59:07 481

转载 Flink内存管理：网络传输内存network buffer及堆内存管理

1 Flink背压原理任务A写, 任务B读， 2者都是先申请 local buffer pool, 满了之后再向network buffer pool申请。消费下游： local buffer pool和network buffer pool满了之后，发送消息给上游（ResultSubparittion)，上有不在发送消息，下游的 input channel将不会接受到新的数...

2019-11-18 20:47:18 3604

ireport帮助入门

ireport入门资料

2008-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄18年

48
原创

21
点赞

149
收藏

403
粉丝

关注

私信

热门文章

分类专栏

kafka 10篇
AI 3篇
HDFS 2篇
spark 3篇
Yarn 3篇
Flink 11篇
tensorflow 1篇
flume
LDAP 2篇
mysql 2篇
CDH 4篇
idea 1篇
impala 1篇
solr 1篇
Hbase 2篇
hive 1篇
Linux 运维 2篇

最新评论

G1 GC基本逻辑
TheMythWS: 看不懂好高级
Kafka常用操作
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录。
kafka 故障：监控出现 offline partition 1个和大量under replicated 状态分区.
benpaodexiaowoniu: 厉害，我cdh6.2.0集群中出现此问题，果然是需重启就能解决问题。附重启“前后”命令所查均为：[code=java] cd /opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib/kafka/ ./bin/kafka-topics.sh --describe --zookeeper lngest02.ane56.com:2181,Streaming02.ane56.com:2181,lngest01.ane56.com:2181 --under-replicated-partitions 23/01/04 15:24:55 INFO zookeeper.ZooKeeperClient: [ZooKeeperClient] Connected. Topic: __consumer_offsets Partition: 0 Leader: 301 Replicas: 301,299,300 Isr: 299,301 Topic: __consumer_offsets Partition: 1 Leader: 301 Replicas: 302,300,301 Isr: 301 Topic: __consumer_offsets Partition: 2 Leader: 295 Replicas: 295,303,294 Isr: 294,295 [/code]
Flink读写Kerberos认证Kafka环境。
liyuan.zhang: 他这个应该是通过环境变量配置的但是这些配置文件一定要放在flink机器上吗不能直接打在jar里吗
yarn WEB UI及reserved memory、spark WEB UI
偶尔失联: 有帮助，感谢

提示

确定要删除当前文章？

取消删除