- 博客(119)
- 收藏
- 关注
原创 HDFS api上传文件和hdfs命令上传副本数为什么不一致?
HDFS 简介hdfs是hadoop中分布式的文件存储系统;具有高容错、可扩展;广泛的用于大数据项目中(不仅仅是hadoop)1 hdfs copyFromLocal1.1 java API public static final String HDFS_PATH = "hdfs://192.168.72.160:8020"; Configuration configura...
2019-08-26 21:41:19
589
1
原创 Linux -- shell常用语法
1.shell是什么Shell是一个应用程序,它连接了用户和 Linux 内核,让用户能够更加高效、安全、低成本地使用 Linux 内核,这就是 Shell 的本质。2.shell文件格式文件开头:#!/bin/bash附上执行权限就能执行了:chmod u+x hello.sh#!/bin/bashecho "hello world"3.shell 变量shell 变量分为...
2019-08-26 00:00:02
154
原创 hadoop 常见面试题
hdfs yarn常用命令整理hdfs新建文件路径:hdfs dfs -mkdir /input 文件上传:hdfs dfs -put wordcount.txt /input/ 查看文件系统:hdfs dfs -ls /文件下载:hdfs dfs -get /input/wordcount.txt ~/aa查看文本:hdfs dfs -text /input/wordcount.t...
2019-08-25 17:32:10
201
原创 hadoop HA集群搭建
一、环境准备1.3台主机添加 hadoop 用户[root@localhost ~]# useradd hadoop2.切到hadoop 用户下新建目录[root@localhost ~]# su - hadoop[hadoop@localhost ~]$ mkdir app software source data lib script tmp maven_repos3.查看...
2019-08-25 17:25:48
275
原创 hdfs dfs -ls 与 hdfs dfs -ls / 区别
hdfs dfs -ls hdfs dfs -ls / hdfs dfs -ls hdfs://ip:9000/ 结果是否相同hdfs dfs -ls 默认目录是在hdfs文件系统的/user/用户名hdfs dfs -ls == hdfs dfs -ls /user/hadoophdfs dfs -ls[hadoop@hadoop000 bin]$ hdfs dfs -lsF...
2019-08-25 17:02:25
14162
原创 hdfs HA 与 yarn HA
1. hdfs HA 架构流程HA中的角色ZK:协调系统切换NameNodeZKFC:自动故障转移进程,负责与ZK、NameNode通讯,当检测到NameNode(active)挂掉时,复制删除注册在ZK上的临时znode,NameNode(standby)会通过ZKFC在ZK上注册新的临时znode。NameNode(active):活着的NameNodeNameNode(standb...
2019-08-25 16:56:35
230
原创 zk集群无法启动的排查思路
1 检查进程1.1 检查JAVA进程 JPS[hadoop@ruozedata001 script]$ jps20768 DFSZKFailoverController21538 Jps20564 JournalNode20247 NameNode20359 DataNode20968 NodeManager20861 ResourceManager21149 JobHisto...
2019-08-25 15:00:38
663
原创 linux -- sed
sed是一种行编辑器,它一次处理一行内容。1.sed调用方式sed [options] ‘command’ file(s)sed [options] -f scriptfile file(s)第一种直接在命令行中执行,第二种把命令写到了脚本中,二者无本质区别。2.常用参数-h或–help 显示帮助。-n或–quiet或–silent 仅显示script处理后的结果。3.动作参...
2019-08-24 17:39:08
105
原创 linux -- awk命令
AWK 是一种解释执行的编程语言。它非常的强大,被设计用来专门处理文本数据。AWK 的名称是由它们设计者的名字缩写而来 —— Afred Aho, Peter Weinberger 与 Brian Kernighan。1. AWK 程序的结构开始块 主体块 结束块1.1 开始块(BEGIN block)开始块的语法格式如下所示:BEGIN {awk-commands}顾名思义...
2019-08-24 16:48:13
158
原创 hdfs ha脚本检测failover时,发送邮件预警
1.启动集群[root@ruozedata002 ~]# su - hadoop[hadoop@ruozedata001 ~]$ cd script/[hadoop@ruozedata001 script]$ ./start_cluster.sh2.检查集群进程[hadoop@ruozedata001 script]$ ./jps.sh3.检查 HA 中两个NameNod...
2019-08-24 13:55:55
173
原创 spark -- groupbykey
需求:一组数按类别分组统计spark 实现import org.apache.spark.sql.{Row, SparkSession}object groupbykey { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("----").master("lo...
2019-08-23 15:57:58
421
原创 运维 -- linux465端口发送qq邮件
1.在QQ账号设置中开启SMTP并获取获取授权码1.开启POP3/SMTP服务2.开启IMAP/SMTP服务3.生成授权码,并保存2.关闭 sendmail 服务,并清除开机启动[root@ruozedata001 ~]# service sendmail stopRedirecting to /bin/systemctl stop sendmail.serviceFailed ...
2019-08-23 00:45:06
1163
原创 HDFS健康检查 hdfs fsck
检查hdfs 文件系统的健康状况hdfs fsck / :从根目录检查每个文件的数据块是否损坏、丢失 [hadoop@ruozedata001 sbin]$ hdfs fsck / Connecting to namenode via http://ruozedata002:50070/fsck?ugi=hadoop&path=%2F FSCK started by hadoop ...
2019-08-21 00:34:55
1184
原创 hdfs HA 故障转移
一、 查看ha中两个主节点的状态hdfs haadmin -getServiceState nn1hdfs haadmin -getServiceState nn2二、当nn1挂掉时,nn2由standby 状态转为 active手动执行故障转移hdfs haadmin -failover nn1 nn2启动 namemode进程hadoop-daemon.sh start...
2019-08-21 00:23:35
465
原创 机器学习 -- 多项式回归
前言在面对一些简单的线性问题时。线性回归能够用一个直线较为精确地描述数据之间的关系。但对于复杂的非线性数据问题时。线性回归的效果就大大不如意了。对特征数据进行多项式变化,再使用线性回归的做法就能提高模型的拟合效果,这种方法就是多项式回归。从面对上图1中的数据,线性回归不能准确描述数据关系。无论一次方、二次方、三次方、四次方都不能单独完美拟合数据。在多项式中集成了一次方、二次方、三次方、四次方...
2019-08-12 17:23:26
639
原创 阿里云 CDH 安装过程遇到的坑
mysql安装个别文件找不到上面操作之前先切换到 /usr/local/ 目录 cd /usr/local/CDH Mysql数据库 JDBC driver cannot be found.后来在网上找到需要将这个包放到这个路径下就通过了(名字需要修改下)mv mysql-connector-java-5.1.47.jar mysql-connector-java.jar/us...
2019-08-08 17:31:26
378
原创 jvm -- jps
jps是jdk提供的一个查看当前java进程的命令, 可以看做是JavaVirtual Machine Process Status Tool的缩写。用法:usage: jps [-help] jps [-q] [-mlvV] [<hostid>]Definitions: <hostid>: <hostname>[:<...
2019-07-30 10:08:12
205
原创 kafka -- java消费者远程连接不上集群
Connection to node -1 could not be established. Broker may not be available.生成者发送消息,在集群上的消费者能接收到消息,但远程的java消费者客户端接收不到,并一直报Connection to node -1 could not be established. Broker may not be available....
2019-07-29 19:59:09
1151
原创 Elasticsearch kibana -- 时区
今天遇到 kibana 和 Elasticsearch 时区不一致,导致有数据时间段内的查询出现异常,其可视化出现图形位移现象。如:时间是 2019-07-13 10:56:24 却被分到 2019-07-13 18:56:24的桶了查看了源数据中同一时间段的数据没有,判断是时区出了问题查找 es 的默认时区。在官网中找到下面一句,默认是UTC Date-times are stor...
2019-07-25 17:49:16
1096
原创 flink -- 分布式缓存
现在有两种相关的数据,A:机器位置数据,B:机器状态巡检数据机器位置数据A(:数据量小)ip位置192.168.100.1机柜1编号1机器192.168.100.2机柜1编号2机器192.168.100.3机柜1编号3机器192.168.100.4机柜1编号4机器192.168.100.5机柜1编号5机器192.168.100.6...
2019-07-17 15:50:24
407
原创 运维 -- 虚拟机给磁盘扩容
一、删除快照二、在vmware中扩展磁盘容量三、安装gpartedsudo apt-get install -y gparted四、打开gparted图形化界面 开启linux d@ubuntu:~$ sudo gparted五、关闭extended先关闭linux-swap关闭 extended 上的钥匙图标消失六、调整 extended 的大小选中 -...
2019-07-16 19:35:26
1318
原创 spark与mysql整合
maven添加msyql 依赖 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> <...
2019-07-11 16:50:33
375
原创 spark与Elasticsearch整合
maven添加依赖 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-c...
2019-07-11 16:40:36
910
原创 JVM -- 查看内存
如何获得JVM的最大可用内存在命令行下用java -Xmx1200m -XX:MaxPermSize=60m -version 命令来进行测试,然后逐渐的增大XXXX的值,如果执行正常就表示指定的内存大小可用,否则会打印错误信息。最后得到的虚拟机实际分配到的总内存大小=堆内存+非堆内存1200m:为堆内存大小,-Xmx为设置最大堆内存60m:为非堆内存大小,-XX:MaxPermS...
2019-07-05 16:31:32
162
原创 Elasticsearch -- search_after
Elasticsearch 搜索返回的数据默认最大为 10000 条,如果需要返回全部的数据,需要修改默认配置或者 scroll 或者 search after 的解决方案。其中 search after 解决方案不需要额外的配置和操作是三者中最合适的解决方案使用 HTTP 请求实践GET phonebills/_search{ "query": { "term": { ...
2019-07-04 11:39:35
6067
1
原创 RDD -- RDD中获取文件名并加上一列文件名
需求:spark读取文件生成RDD,需要在RDD中加上一列文件名wholeTextFilessc.textFiles() 与 sc.wholeTextFiles() 的区别sc.textFiles(path) 能将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式wholeTextFiles(path)的源码介绍 * Read a directory of tex...
2019-06-28 15:58:38
1012
原创 RDD -- flatmap
flatmapflatmap 简单用法 def main(args: Array[String]): Unit = { //设置log级别 Logger.getLogger("org").setLevel(Level.WARN) val conf = new SparkConf().setAppName("WordCountDemo").setMaster("loca...
2019-06-26 17:19:03
1872
1
原创 java/scala -- 日期格式字符串转时间戳
scala 日期格式字符串转时间戳 val fm = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss.SSS'Z'") val time = fm.parse(timestamp).getTime() //2019-04-09T03:01:22.413Z = 1554750082413 //2019-04-09T00:51:36.096Z...
2019-06-26 10:49:08
714
原创 tensorflow -- 安装环境
安装 python3-dev、 python3-pip、virtualenvsudo apt updatesudo apt install python3-dev python3-pipsudo pip3 install -U virtualenv # system-wide install创建虚拟环境virtualenv --system-site-packages -p pyt...
2019-06-19 16:49:28
102
原创 运维 -- 非root账户免密码sudo
linux下为用户配置免密码sudo权限1.切换到root账号su - root2.在配置文件/etc/sudoers中添加usrName ALL=(ALL) NOPASSWD: ALL
2019-06-19 14:24:09
1053
原创 elasticsearch -- win10 elasticsearch.bat闪退
win10 elasticsearch.bat闪退怎么搞的1、在elasticsearch/bin目录下,按shift + 鼠标右键 打开 powershell窗口2、输入bat文件名 如 elasticsearch.bat 回车运行,这时能看到错误提示,根据提示排查错误即可。[2019-06-19T11:04:17,247][INFO ][o.e.x.s.a.s.FileRolesSto...
2019-06-19 11:15:25
6200
2
原创 运维 -- Centos7静态ip
切换到 /etc/sysconfig/network-scripts 目录cd /etc/sysconfig/network-scripts 备份配置文件 ifcfg-ens32cp ifcfg-ens32 ifcfg-ens32.bak修改ifcfg-ens32内容第一台机器 TYPE=Ethernet PROXY_METHOD=none BROWSER_ONLY=no...
2019-06-19 10:26:48
151
转载 大数据 -- 数据倾斜
离线计算的数据倾斜问题数据倾斜就是指我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到一台或者几台机器上,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢。Hadoop中的数据倾斜主要表现在任务在Reducer阶段会长时间停留在大概99%处不能结束。这时如果仔细查看日志就会发现有一个或者多个reducer执行过程报oom错误或者container加载失败,这时基本可以判断...
2019-06-15 09:02:30
378
原创 Elasticsearch 特定场景下使用
假设一: 现在有一批互联网数据信息字段名字name联系人listeners开始时间starttime结束时间endtime位置position联系内容content需求一:实时搜索到在目标时间内和目标地(方圆3千米)内所有联系过的人员需求二:实时统计在目标时间内和目标人所有联系过的人员及次数需求三:实时统计在目标时间内和目标...
2019-05-27 22:51:10
506
原创 Elasticsearch -- 基本概念
ElasticsearchElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。indexElasticSearch索引(Index)定义了文档的逻辑存储和字段类型,索引是文档的集合,文档以索...
2019-05-26 23:41:35
216
原创 数据结构 -- 红黑树
2-3 树2-3 树是最简单的 B 树,2-3 树一颗绝对平衡的树,2-3 树满足二分搜索树的基本性质,在2-3 树中有两种节点,一种存放一个元素,另外一种存在两个元素。2-3 树添加元素红黑树红黑树(Red Black Tree) 是一种自平衡二叉查找树,是在计算机科学中用到的一种数据结构,典型的用途是实现关联数组。它是在1972年由Rudolf Bayer发明的,当时被称为平衡...
2019-05-22 11:31:30
170
原创 RDD -- 其他操作
RDD 缓存级别说明MEMORY_ONLY系统默认 数据缓存到内存中MEMORY_AND_DISK优先存储在内存中,当不适合存储在内存中时,会启用磁盘存储MEMORY_ONLY_SER和MEMORY_ONLY都是存储在内存中,不同的MEMORY_ONLY_SER存储的是java 对象,MEMORY_ONLY存储的是反序列的对象MEMORY_AND_DI...
2019-05-21 12:15:07
197
原创 IDEA使用技巧 -- debug
打断点 / 取消断点Ctrl + F8查看所有断点Shift + Ctrl + F8禁止所有断点条件断点Ctrl + Shift + F8表达式求值Alt + F8运行到指定行Alt + F9setValueF2
2019-05-20 16:28:09
160
原创 RDD -- Actions算子
Actions算子Actions算子会触发spark任务提交。一般拍电影时导演都会喊Action,Action有开始之意,这类算子固有开始任务之意。reducecollectcountfirsttaketakeSampletakeOrderedsaveAsTextFilesaveAsSequenceFilesaveAsObjectFilecountByKeyforeach...
2019-05-17 17:32:55
281
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅