自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陈小哥cw

做一个努力的码农

  • 博客(127)
  • 收藏
  • 关注

原创 【Ne4j图数据库入门笔记2】数据导入详解

如上所述,某些应用程序有特殊的格式设置,使文档看起来更美观,但这些隐藏的额外代码是普通文件阅读器和脚本无法处理的。组的第一个文件或单独的单行文件中的标题行是必需的。对于将任何类型的数据导入到任何系统,数据质量也可能是一个问题,因此本节将介绍其中的一些潜在困难和克服这些困难的方法。可以跳过 CSV 文件中的 null 或空字段,或将其替换为 LOAD CSV中的默认值。为了改进在图形中插入或更新唯一实体(使用 MERGE 或 MATCH 更新),您可以为计划合并或匹配的每个标签和属性创建声明的索引和约束。

2024-04-19 09:26:41 961

原创 【Ne4j图数据库入门笔记1】图形数据建模初识

图形数据模型通常被称为对白板友好的模型。通常,在设计数据模型时,人们在白板上绘制示例数据,并将其连接到绘制的其他数据,以显示不同项目如何连接。然后,对白板模型进行重新格式化和结构化,以适合关系模型的规范化表。图数据建模中也存在类似的过程。但是,图形数据模型不会修改数据模型以适应规范化的表结构,而是完全保持在白板上绘制的状态。这就是图形数据模型因对白板友好而得名的地方。让我们看一个例子来证明这一点。在下面的白板图中,我们有一个关于电影《黑客帝国》的数据集。

2024-04-19 08:57:46 675

原创 kafka2.x和3.x相关命令

Kafka2.x命令。

2023-09-07 17:22:20 405

原创 docker介绍、安装及卸载

官网安装教程:https://docs.docker.com/engine/install/centos/####### Docker介绍 ##########镜像(image):Docker镜像就是一个只读的模板。镜像可以用来创建Docker容器,一个镜像可以创建很多容器。它也相当于是一个root文件系统。比如官方镜像centis:7就包含了完整的一套centos:7最小系统的root文件系统。

2023-09-07 17:21:14 538

原创 docker相关命令

###### 帮助启动类命令 ##########

2023-09-07 17:20:35 563

原创 Anaconda使用指南

Anaconda是一个安装、管理Python相关包的软件,还自带Python、Jupyter Notebook、Spyder,有管理包的Conda工具。Anaconda包含了Conda、Python在内的超过180个科学包及其依赖项。Anaconda 是专门为了方便使用 Python 进行数据科学研究而建立的一组软件包,涵盖了数据科学领域常见的 Python 库,并且自带了专门用来解决软件环境依赖问题的 Conda 包管理系统。

2023-08-08 11:26:54 959

原创 Flink on Yarn模式部署

独立(Standalone)模式由 Flink 自身提供资源,无需其他框架,这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但我们知道,Flink 是大数据计算框架,不是资源调度框架,这并不是它的强项;所以还是应该让专业的框架做专业的事,和其他资源调度框架集成更靠谱。而在目前大数据生态中,国内应用最为广泛的资源管理平台就是 YARN 了。所以接下来介绍的是 YARN 平台上 Flink 是如何集成部署的。整体来说,YARN 上部署的过程是:客户端把 Flink 应用提交给 Yarn 的Resour

2022-06-17 16:13:29 7392 1

原创 【Flink问题】The number of requested virtual cores per node 8 exceeds the maximum number of virtual core

运行以下命令时出现问题具体错误解决方案有以下错误可以看出yarn配置中的设置了虚拟的cores=6,taskManager的slot我设置了8个,资源不够解决方法:方法一:调大vcores参数方法二:减少slot个数taskmanager.numberOfTaskSlots: 5在flink安装目录下文件修改以下内容...

2022-06-14 10:27:47 2194 1

原创 Flink Standalone部署模式

独立模式(Standalone)是部署 Flink 最基本也是最简单的方式: 所需要的所有 Flink 组件, 都只是操作系统上运行的一个 JVM 进程。独立模式是独立运行的, 不依赖任何外部的资源管理平台; 当然独立也是有代价的: 如果资源不足, 或者出现故障, 没有自动扩展或重分配资源的保证, 必须手动处理。所以独立模式 一般只用在开发测试或作业非常少的场景下。另外, 我们也可以将独立模式的集群放在容器中运行。 Flink 提供了独立模式的容器化部署方式,可以在 Docker 或者 Kubernetes

2022-06-13 10:22:42 2059

原创 Flink部署模式介绍(session,per-job,application)

在一些应用场景中, 对于集群资源分配和占用的方式,可能会有特定的需求。 Flink 为各 种场景提供了不同的部署模式, 主要有以下三种:它们的区别主要在于:集群的生命周期以及资源的分配方式; 以及应用的 main 方法到底 在哪里执行——客户端(Client)还是 JobManager。接下来我们就做一个展开说明。会话模式其实最符合常规思维。我们需要先启动一个集群, 保持一个会话, 在这个会话中通过客户端提交作业,如图所示。集群启动时所有资源就都已经确定, 所以所有提交的作业会竞争集群中的资源。这样的好

2022-06-13 09:53:41 3446

原创 ambari卸载删除节点步骤

1.删除组件yum remove -y hive*yum remove -y hdfs*yum remove -y yarn*yum remove -y mapreduce2*yum remove -y tez*yum remove -y hbase*yum remove -y pig*yum remove -y sqoop*yum remove -y oozie*yum remove -y zookeeper*yum remove -y falcon*yum remove -y s

2022-05-27 08:40:23 1387

原创 【ambari问题】python版本过高

ambari安装时出现python版本过高的问题,ambari需要python-2.7.5-89.el7.x86_64,而机器上为python-2.7.5-90.el7.x86_64

2022-05-27 08:32:46 1792

原创 Hadoop配置文件介绍

文章目录一,默认配置文件二,自定义配置文件Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。一,默认配置文件要获取的默认文件文件存放在 Hadoop 的 jar 包中的位置[core-default.xml]hadoop-common-3.1.3.jar/core-default.xml[hdfs-default.xml]hadoop-hdfs-3.1.3.jar/hdfs-default

2021-04-20 16:34:23 1052

原创 scala模式匹配

文章目录一,Scala模式匹配介绍二,模式守卫二,典型的模式匹配场景2.1 匹配字符串2.2 匹配类型2.3 匹配数组、元组、集合2.4 匹配对象2.4.1 apply和unapply方法介绍2.4.2 对象匹配细节介绍2.5 匹配异常三,变量声明和for表达式中的模式匹配四,样例类五,偏函数一,Scala模式匹配介绍模式匹配是检查某个值(value)是否匹配某一个模式的机制,一个成功的匹配同时会将匹配值解构为其组成部分。它是Java中的switch语句的升级版,同样可以用于替代一系列的if/else语

2021-03-31 14:31:33 443

原创 Scala中Object和Class区别(伴生类和伴生对象)

文章目录一,介绍二,类Class2.1 类定义2.2 构造器1.基本语法2.构造器参数2.3 私有成员和Getter/Setter语法三,单例对象Object四,伴生对象和伴生类介绍五,总结一,介绍Scala是一个完全面向对象的语言,故Scala去掉了Java中非面向对象的元素,如static关键字,void类型,为了能够调用静态语法(模拟静态语法),采用伴生对象单例的方式Scala源码中包含了main方法,在编译后自动形成了public static void mainscala在编译源码

2021-03-30 13:39:15 3970 2

原创 【Spark源码】spark-submit和Spark-class

首先从启动脚本开始看:bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \./examples/jars/spark-examples_2.12-3.0.0.jar \10启动脚本调用的是spark-submit,所以直接看bin/spark-submit脚本,跟spark-shell一样,先检查是否设置了${SPARK_HOME},然后启动spa

2021-03-24 14:03:41 2808

原创 Spark中的闭包和闭包检测

文章目录一,闭包概念二,闭包检测一,闭包概念闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。函数在变量不处于其有效作用域时,还能够对变量进行访问,即为闭包;也就是说,变量超出了其作用域,还可以使用,就是闭包现象。闭包 = 代码 + 用到的非局部变量这里我们引入一个自由变量 factor,这个变量定义在函数外面。这样定义的函数变量 multiplier 成为一个"闭包",因为它引用到函数外面定义的变量,定义这个函

2021-03-12 16:51:45 1006

原创 Spark 序列化和kryo序列化器详解

建议看本文前先看看另外一篇文章Java序列化和反序列化介绍1.Java序列化含义Spark是基于JVM运行的进行,其序列化必然遵守Java的序列化规则。序列化就是指将一个对象转化为二进制的byte流(注意,不是bit流),然后以文件的方式进行保存或通过网络传输,等待被反序列化读取出来。序列化常被用于数据存取和通信过程中。对于java应用实现序列化一般方法:class实现序列化操作是让class 实现Serializable接口,但实现该接口不保证该class一定可以序列化,因为序列化必须.

2021-03-12 16:41:17 836 1

原创 Java序列化和反序列化介绍

文章目录一,序列化和反序列化介绍二,序列化实现的方式2.1 实现Serializable接口2.1.1 普通序列化1.序列化步骤2.反序列化步骤2.1.2 成员是引用的序列化2.1.3 同一对象序列化多次的机制2.1.4 java序列化算法潜在的问题2.1.5 可选的自定义序列化1.使用transient2.可选的自定义序列化3.更彻底的自定义序列化2.2 Externalizable:强制自定义序列化2.3 两种序列化对比三,序列化版本号serialVersionUID四,总结一,序列化和反序列化介绍

2021-03-12 13:58:56 361

原创 【HDFS问题】HDFS oiv解析Fsimage OOM异常处理

问题说明HDFS的Fsimage文件记录了集群的元数据信息,是进行集群健康度分析的基础。利用HDFS oiv命令可以解析fsimage文件,解析后的文件放入Hive中即可进行集群元数据的详细分析。运行以下命令,获取hdfs集群的fsimage文件,并使用oiv命令进行解析#获取fsimage文件hdfs dfsadmin -fetchImage ./tmp_meta#使用oiv命令将fsimage文件解析为csv文件hdfs oiv -i ./tmp_meta/* -o ./tmp_meta/

2021-03-10 15:12:14 690

原创 kudu的一些限制

https://kudu.apache.org/docs/known_issues.htmlSchemaPrimary keysThe primary key may not be changed after the table is created. You must drop and recreate a table to select a new primary key.The columns which make up the primary key must be listed fi.

2021-01-27 10:03:20 702

原创 redis基础

文章目录1. Redis 简介1.1 NoSQL概念1.1.1 问题现象1.1.2 NoSQL的概念1.2 Redis概念1.2.1 redis概念1.2.2 redis的应用场景1.3 Redis 的下载与安装1.3.1 Redis 的下载与安装1.4 Redis服务器启动1.4.1 Redis服务器启动1.4.2 Redis客户端启动1.4.3 Redis基础环境设置约定1.5 配置文件启动与常用配置1.5.1 服务器端设定1.5.2 客户端配置1.5.3 日志配置1.6 Redis基本操作1.6.

2021-01-20 15:00:02 387

原创 【SpringMVC问题】springmvc jsp页面跳转到controller丢失项目名导致404

问题在写前台测试文件上传时,jsp跳转controller时出现404错误,查看跳转的链接里丢失了项目名具体代码如下jsp代码<%@page pageEncoding="UTF-8" language="java" contentType="text/html;UTF-8" %><form action="/fileupload" method="post" enctype="multipart/form-data"> <%--文件上传表单的name属性

2021-01-15 17:12:22 1685 3

原创 【SpringMVC问题】Invalid character found in the request target. The valid characters are defined in RFC

文章目录问题解决办法方法一:使用Tomcat7.0.69之前的版本;方法二:对url的特殊字符进行转义方法三:修改tomcat配置文件问题访问链接http://localhost:8080/spring03/requestParam7?addresses[0].city=beijing时,页面显示Invalid character found in the request target. The valid characters are defined in RFC 7230 and RFC 3986

2021-01-14 14:26:10 2536

原创 【SpringMVC问题】springmvc添加mvc:default-servlet-handler后,静态资源可以访问,controller不能访问

问题springmvc添加<mvc:default-servlet-handler/>或者<mvc:resources mapping="/img/**" location="/img/"/>后,静态资源可以访问,Controller不能访问,删掉<mvc:default-servlet-handler/>后才能访问controller具体配置文件 <context:component-scan base-package="com.cw">

2021-01-13 16:46:09 935 3

原创 【hdfs问题】hdfs 跨集群数据迁移报错

问题目前想要让Kerberos集群的hdfs数据迁移到非Kerberos集群的hdfs上,使用以下命令报错sudo kinit hivesudo klistsudo hadoop distcp hdfs://<secure_namenode>:8020/user/hive/warehouse/test.db/* hdfs://<insecure_namenode>:8020/user/hive/warehouse/test.db报错截图解决方案官方链接:https

2020-12-30 09:18:36 2331 1

原创 NameNode和Second Name Node的工作流程

1. Namenode的工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数

2020-12-08 10:32:43 1247

原创 fsimage,edits ,SNN介绍

fsimage:命名空间镜像文件,不及时更新,存储多个NameNode信息。(一个文件一个NameNode)把文件和目录的元数据信息持久化地存储到fsimage文件中,每次启动时从中将元数据加载到内存中构建目录结构树,之后的操作记录在edits log中edits log:编辑日志,实时更新,程序运行过程中对DataNode的操作记录。fsimage和edits log均存储在磁盘,而不是内存上思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的

2020-12-08 10:29:20 593

原创 Cloudera Management Service角色介绍

Cloudera Management Service角色介绍Cloudera Management Service使用一组角色将各种管理功能实现:Activity Monitor:收集有关MapReduce服务运行的活动的信息。默认情况下不添加此角色Host Monitor:收集有关主机的运行状况和度量标准信息Service Monitor:从YARN和Impala服务中收集有关服务和活动信息的健康和度量信息Event Server :汇总相关的Hadoop事件并使它们可用于警报和搜索Ale

2020-12-02 17:59:03 1446

原创 hbase hbck修复命令(hbase1.x)

参考:http://hbase.apache.org/book.html#hbckhttps://docs.cloudera.com/documentation/enterprise/5-16-x/topics/admin_hbase_hbck.htmlHBaseFsck(hbck)是一种命令行工具,可检查region一致性和表完整性问题并修复损坏它以两种基本模式工作:只读不一致标识模式和多阶段读写修复模式只读不一致标识:在此模式下(默认情况下),将生成报告,但不尝试维修。读写修复模式:在这.

2020-12-02 16:03:37 1992

原创 openldap-删除,修改ldap用户和组后,使用id命令显示没变化

问题删除ldap用户后,使用id命令查看,发现仍然是之前的结果[root@hadoop48 ~]# id ldapuser2uid=1002(ldapuser2) gid=1002 groups=1002[root@hadoop48 ~]# more /etc/passwd | grep ldapuser[root@hadoop48 ~]# ldapsearch -D "cn=Manager,dc=macro,dc=com" -W | grep dnEnter LDAP Password: d

2020-11-23 18:24:44 1844

原创 Cloudera Manager,Cloudera Navigator和Cloudera Management Service角色使用的端口

一,端口介绍下图概述了Cloudera Manager,Cloudera Navigator和Cloudera Management Service角色使用的某些端口:有关更多详细信息,请参见下表。列出的所有端口均为TCP。在下表中,“内部”表示该端口仅用于组件之间的通信。外部意味着该端口可用于内部或外部通信。二,外部端口ComponentServicePortConfigurationDescriptionCloudera Manager ServerHTTP (

2020-11-19 15:37:50 476

原创 impala相关的端口

下表中列出了 Impala 使用的 TCP 端口。部署Impala之前,请确保在每个系统上打开这些端口。您可以使用相应的启动标签来覆盖默认端口。参考http://impala.apache.org/docs/build/html/topics/impala_ports.html#ports组件服务启动标签端口访问需求备注Impala DaemonImpala 守护进程前端端口–beeswax_port21000外部被 impala-shell, Beeswax,

2020-11-19 15:21:41 671

原创 HAProxy页面参数解释

QueueCur: current queued requests //当前的队列请求数量Max:max queued requests //最大的队列请求数量Limit: //队列限制数量Session rate(每秒的连接回话)列表scur: current sessions //每秒的当前会话的限制数量smax: max sessions //每秒的新的最大的会话数量slim: sessions limit ...

2020-11-19 14:53:26 539

原创 hdfs问题-删除,遍历某个目录时显示GC overhead limit exceeded

之前碰到一个问题,使用hdfs ls或者find命令时,会报GC问题,如下图Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded经过调查,我发现该文件夹中有超过3,200,000个文件,而hdfs dfs -ls命令以递归方式搜索目标文件夹中的所有文件,这导致GC OOM错误。于是我将hdfs客户端的heap大小调大,再次运行则成功HADOOP_CLIENT_OPTS="-Xmx1024

2020-09-21 14:25:05 929 2

原创 spark实现wordcount的几种方式总结

方法一:map + reduceByKeypackage com.cw.bigdata.spark.wordcountimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * WordCount实现第一种方式:map + reduceByKey * * @author 陈小哥cw * @date 2020/7/9 9:59 */object WordCount1

2020-07-09 14:33:25 1128

原创 kafka核心概念和角色

文章目录1.概述2.Producer3.Consumer4.Consumer Group5.Broker6.Topic7.Partition8.Offset9.持久化10.Replica副本机制11.zookeeper1.概述kafka里面的消息是有topic来组织的,简单的我们可以想象为一个队列一个topic就是一个消息队列,然后它把每个topic又分为很多个partition这个是为了做并行的,更加方便扩展,而且提高了吞吐量在每个partition内部消息强有序,相当于有序的队列,其中每

2020-06-21 11:28:36 1331

原创 Kafka数据可靠性保证-ack,ISR,HW

文章目录1.副本数据同步策略2.ISR,AR3.ack应答机制4. HW,LEO,LSO,LW名词解释5.故障处理细节1.follower故障2.leader故障6.ISR 集合和 HW、LEO的关系为保证producer发送的数据,能可靠的发送到指定的topic,topic的每个partition收到producer发送的数据后,都需要向producer发送ack(acknowledgement确认收到),如果producer收到ack,就会进行下一轮的发送,否则重新发送数据。1.副本数据同步策略

2020-06-21 11:25:30 1365 2

原创 Kafka工作流程及文件存储机制

文章目录一,Kafka工作流程二,文件存储机制2.1 存储机制2.2 index和log文件详解2.3 message的结构2.4 如何通过offset查找Message?三,数据目录结构一,Kafka工作流程Kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的。topic是逻辑上的概念,而partition是物理上的概念,每个partition对应于一个log文件,该log文件中存储的就是producer生产的数据。Producer生产的数据会被不断追加到

2020-06-21 11:21:42 494

原创 Kafka相关面试题详解

文章目录面试题列表1.突发宕机,Kafka写入的数据如何保证不丢失?Kafka 分布式存储架构Kafka 高可用架构Kafka 写入数据丢失问题Kafka 的 ISR 机制是什么?Kafka 写入的数据如何保证不丢失?总结2.Kafka如何实现每秒上百万的超高并发写入?页缓存技术 + 磁盘顺序写零拷贝技术总结3.Kafka中的ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)等分别代表什么?4. Kafka中的HW、LEO、LSO、LW等分别代表什么?5. Kaf

2020-06-21 11:02:32 1252

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除