自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 收藏
  • 关注

原创 git命令大全

概述 git安装好后, 可以在任何一个文件夹,右键打开Git Bash. 可以在该程序中直接运行linux命令或git命令 git工作机制的核心在于3个区: 工作区: 电脑的本地目录(该目录中有创建的.git目录) 暂存区: 暂存区的数据保存在.git/index文件中 本地仓库: 一般从远...

2020-05-24 15:24:00 148

原创 Spark之Yarn Cluster运行机制内核源码解读

简介 Spark有3种集群管理器: Standalone Hadoop YARN 又分为yarn client与yarn cluser Apache Mesos 生产环境中一般使用yarn cluser模式 个人理解 &#13...

2020-05-24 10:33:00 255

原创 kafka重新安装

重装需要删除zookeeper与kafka所有brokers的中相关目录 删除zookeeper以下与kafka相关的各个目录 登陆zookeeper bin/zkCli.sh -server node01:2181,node02:2181,node03:2181 ...

2020-05-19 21:25:00 1526

原创 scala中的特殊符号:下划线_

导包, 通配符 _ import java.util.Math._ 屏蔽类 import java.util.{Hashmap => _, _} 给可变参数传值时, 展开 foo(arr:_*) 元组元素访问 t._1 函数参数的占位符&#13...

2020-05-04 06:50:00 178

原创 scala之函数式编程根本概念-纯函数

什么是纯函数纯函数是函数式编程中的一个根本概念. 纯函数要求一个函数输入对应输出, 没有其它任何副作用, 且引用透明.过程: 没有返回值, 只有副作用的函数一个纯函数有以下要求:没有副作用不向控制台打印不向文件写入数据不更改外部变量不向其它文件系统写入数据引用透明这个函数执行结果, 只与参数有关纯函数的好处不用考虑线程安全可以通过缓存技术, 提升计算...

2020-05-01 09:02:49 169

原创 scala之抽象类与trait

抽象类与trait的区别特质可以多继承, 中间用with隔开, 而抽象类不可以特质可以混入对象, 抽象类不可以编译后的trait特质只有抽象成员时编译会生成1个interface接口特质有非抽象的成员时, 如赋值的常量, 变量, 实现的方法编译会生成2个字节码文件, 1个trait类的interface接口, 1个trait类$class类参考Scala的tr...

2020-04-26 23:24:48 235

原创 scala之面向对象

1. 要点类:类中的字段自动带有getter方法和setter方法.用@BeanProperty注解来生成JavaBean的getXxx/setXxx方法主构造器, 主构造器的参数直接构成类的字段辅构造器, 需要提前调用主构造器this()权限修饰符protected: 修饰类的成员, 只能在子父类中访问private[package]: 在package包和...

2020-04-26 21:45:09 171

原创 MapReduce之自定义Combiner

概述Combinar继承了`Reducer`,可选过程, 在map端的实现分组(是在map端运行的reduce), 减小网络IO传输;使用Combiner需要满足的条件Combiner不能影响最终计算结果例如求平均值就不能使用Combiner输出k-v类型必须与map输出一致自定义过程1. 继承Reducer, 重写Reduce方法Public class MyReducer ext...

2020-04-19 12:15:00 216

原创 MapReduce之自定义Partitioner

概述Map方法之后, 数据首先进入到分区方法, 把数据标记好分区, 然后把数据发送到环形缓冲区; reduce的并行数量以及输出文件的个数, 由分区数决定.默认分区是根据key的hashCode对ReduceTasks个数取模得到.自定义步骤1.自定义类继承Partitioner, 重写getPartion方法2. 在Job驱动中, 设置自定义Partitioner3. 自定义Part...

2020-04-19 11:34:00 280

原创 HBase之读写流程中WAL机制

WAL机制概述WAL(Write-ahead logging)预写式日志, 为数据库系统提供原子性和持久化的一些列操作, 几乎在所有非内存数据库都会使用. WAL机制不仅可以提升写性能, 还可以保证数据可靠性.WAL关键点在于先写日志再写磁盘。 在数据写入之前首先顺序写入日志,然后再写入缓存,等到缓存写满之后统一落盘。在对数据页进行修改时, 通过将"修改了什么"这个操作记录在日志中, 而不必...

2020-04-16 15:31:23 1321

原创 HBase之写流程中的刷写时机

目的在执行刷写时,将部分过时的数据舍去,最多保留列族VERSIONS数量的put类型的cell.在刷写时,会将memstore中的rowkey进行排序后,再刷写,方便在查询时,快速检索数据手动刷写flush "表名"flush "region名"刷写后磁盘上的HFile文件可以通过HBase提供的工具查看habase org.apache.hadoop.hhase.io...

2020-04-16 12:24:22 236

原创 HBase之写流程与读流程

基本概念HFile文件保存在磁盘的hbase表数据文件, 格式为HFile。数据块为存储单元, 默认认大小64KB。MemStore写缓存,由于HFile中的数据要求是有序的,数据是先在MemStore中,排好序后,再刷写到HFile. 每次刷写都会形成一个新的HFile。WAL数据会先写WAL(Write-Ahead logfile)日志文件文件中,然后再写入MemSt...

2020-04-16 12:21:29 250

原创 YARN调度器的性能瓶颈

DataNode主机上的AppMaster向ResoureSchedule请求资源, ResoureSchedule向AppMaster返回资源. 同时这个过程是异步的.如何解决调度器调度能力不足, 计算资源浪费的问题.调度器有: 公平调度器, 和容量量调度器.公平调度器的性能瓶颈的核心原因是: 核心调度流程是单线程执行的。这意味着Container分配是串行的,这是调度器存在性能瓶颈的核...

2020-04-14 22:25:04 304

原创 conda环境管理与常用命令

conda环境管理CentOS系统自带了python2.6[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vNzEn0Li-1586824215110)(file:///E:\Images\markdown\1586821914680.png)]使用conda可以既保留系统自带的python 2.6环境, 又能自定义所需python环境, 使用自定义的pytho...

2020-04-14 08:31:11 625

原创 conda create错误:"Collecting package metadata (current_repodata.json): failed"

安装完Minconda后运行命令conda create --name test python=3.6包如下错误Collecting package metadata (current_repodata.json): failedCondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsingh...

2020-04-13 20:40:53 18593 6

原创 shell中$var与"$var"区别

$var解析时, 如果有空格会将解释为两端字符串, 如下面的语句便能正常执行var="-a -l"ls $var"$var"解释时, 不会因为空格将字符串分割, 而是依然作为要给字符串, 因此下面这段语句便报错var="-a -l"ls "$var"...

2020-04-09 21:16:15 724

原创 hive登陆异常: 卡住, 无法正常进入交互界面

在目录$HIVE_HOME/bin目录下使用shell 命名:hive进入hive时, 一直卡在如下截面:Logging initialized using configuration in jar:file:/opt/module/hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties解决: 因为添加过环境变量, 切换到其它...

2020-03-24 07:36:00 2015

原创 hive关联hbase报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

在使用hive关联hbase中的表时执行以下代码时报错执行代码:CREATE external TABLE hive_HBase_dept_table(deptid int,deptname string,num int)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROP...

2020-03-24 01:19:00 553

原创 hbase之基本概念与架构

HBase概述Hbase是一张大表(十亿行 * 百万列), 可以支持十亿级数据量的秒级查询.Hbase依赖于hadoopHbase实现了更高的性能, 但在一定程度上牺牲了数据的一致性,(部分一致性).Hbase数据就是有版本, 一条数据可以有多个版本. HBase与hive: HBase相当于一个数据库, 往hdfs中写入数据; 而hive为一个数据仓库, 支持表...

2020-03-21 13:58:00 219

原创 hadoop安装配置过程中的注意点

检查lib/native中是否包含snappapache 的原始hadoop 2.7.5的安装包, 不支持snapp压缩. 可以使用自行编译后的安装包.hadoop-2.7.5/bin/hadoop checknative添加环境变量export HADOOP_HOME=/export/servers/hadoop-2.7.5export PATH=:$...

2020-03-20 23:06:00 108

原创 使用ssh基于密钥实现3台主机间免密码登陆

第一步: 在host01和 host 2和 host 3上面都要执行下面操作,产生公钥和私钥(该过程不输入密码)ssh-keygen -t rsa第二步: host01, host 2和 host 3都执行以下操作, 将各自公钥添加到host01的authorized_keys的文件中.ssh-copy-id hadoop01第三步:在host01上执行下面操作. 经...

2020-03-20 07:54:00 225

原创 vim常用操作整理

shell 命令vim file +n: 光标跳至第n行命令模式ZZ: 保存且退出dd: 删除一行D: 删除至尾yy: 复制一行p: 粘贴gg: 文件首行G: 文件末行数字G: 移动到对应行u: 撤销上次命令ctrl+r: 恢复撤销v: 进入视图模式末行模式q!: 强制退出set nu: 设置行号set nonu: 关闭...

2020-03-20 06:51:00 104

原创 使用notepad++修改远程主机配置文件

首先在notepad++中安装NppFTP插件安装完之后对其进行添加主机地址等配置点击close关闭配置窗口, 选择connect就能连接到远程主机, 选择需要的文件进行编辑.需要注意的是notepad++的编码选择utf-8编码....

2020-03-20 00:02:00 319

原创 python:在不新建文件的情况下,删除文件中的一行

在不新建文件的情况下,删除文件filename中第lineno行。这里使用两个open1 def removeLine(filename, lineno):2 fro = open(filename, "rt")3 frw = open(filename, "rt")4 for i, d in enumerate(fro):5 if i...

2020-03-19 23:51:00 513

原创 HBase启动报错: java.net.ConnectException

报错信息在habase/logs/hbase-user-master-node101.log文件中查看报错信息java.net.ConnectException: Call From node101/192.168.100.101 to node101:9000 failed on connection exception: java.net.ConnectException:...

2020-03-19 11:33:00 465

原创 修改.bashrc使得xcall能够执行jps命令

xcall脚本通过编写的xcall脚本, 能够在一台主机上执行其它主机上的命名令.具体脚本编写如下:#!/bin/bas...

2020-03-15 11:57:00 156

原创 修改为知笔记markdown编辑器为Typora

简介Typora是最好的Markdown编辑器之一, 让码字成为一种享受, 再结合为知笔记的文件管理与全文搜索功能可以极大...

2020-03-01 16:26:00 398

原创 linux文本处理三剑客 grep sed awk 实战

文章目录grep sed awk对比grep1. 单个匹配查询2. 多个匹配3. grep结合sed 抽取字符串3.1 抽取...

2020-02-26 16:33:00 198

原创 Maven总结

简介Maven有两大功能: 一个是jar管理(也可称依赖管理), 另一个是一键部署(需要配合插件来使用).Maven的使用主要是围绕配置文件:pom.xml. 该文件主要的有两部分, 一个是依赖管理, 包含在<dependencies>标签中; 另一个是插件管理, 包含在<plugins>标签中. 一个简单web项目pom.xml文件中这两部分的配置如下...

2020-02-20 10:24:00 159

原创 maven dependency中provided和compile的区别

通过maven能够正常启动tomcat, 但在浏览器中访问某一个servlet时, 报错误cannot be cast to...

2020-02-16 11:30:00 181

原创 Java IO编程中的几个概念

BIO NIO AIOjava中的BIO NIO AIO 是在不同java版本更新过程中依次引入的, 性能也越来越好.这...

2020-01-13 16:28:00 95

原创 java强转与继承关系的加深理解:object[]的数组无法强转为String[]的数组

在运行下面这段代码时报了一个无法强转的错误Ljava.lang.Object; cannot be cast to [Lja...

2020-01-11 09:31:00 257

原创 java反射机制获取对象中父类属性对象

今天有朋友问,继承会继承父类的私有属性和私有方法吗。回答当然是可以的,只是不能直接访问(例如对于父类的私有属性,可以借助从父...

2020-01-06 21:55:00 720

原创 intealij idea中报错:Error during artifact deployment. See server log for details

在使用intealij idea开发javaEE web应用时,在有时会出现部署不上的问题。对于这个问题可以从映射路径,依赖...

2019-12-26 20:38:00 154

原创 同时使用有线内网与无线外网

当同时使用有线内网与无线外网时,因为优先使用的是有线网所以在上外网时无法连接。这里主要参考了文末资料中的第二种方式进行设置。...

2019-11-08 14:20:00 509

原创 使用xshell从服务器下载文件

进入目录后下载一个文件:sz filename下载多个文件:sz filename1 filename2如果需要下载...

2019-11-07 15:47:00 205

原创 everything使用技巧

everything是一款电脑搜索软件。下载链接:https://www.voidtools.com/zh-cn/总结一些...

2019-11-07 13:42:00 177

原创 正则化

第8章 正则化过拟合问题代价函数线性回归的正则化过拟合问题解决过拟合的方法减少特征的个数Manually sel...

2019-10-27 10:12:00 132 1

原创 python文件重命名

删除文件名中以w开头空格结束的子字符串,例如“wj529 xxxx.pdf”修改为“xxxx.pdf”import os...

2019-10-14 16:15:00 162

原创 决策树基本概念

决策树与if-then规则决策树可以看成是if-then规则的集合。由决策束的根节点到叶节点的每一条路径构成一条规则,叶节...

2019-10-13 22:55:00 691

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除