HDFS健康检查 hdfs fsck

检查hdfs 文件系统的健康状况 hdfs fsck / :从根目录检查每个文件的数据块是否损坏、丢失 [hadoop@ruozedata001 sbin]$ hdfs fsck / Connecting to namenode via http://ruozedata002:50070/fs...

2019-08-21 00:34:55

阅读数 2

评论数 0

hdfs HA 故障转移

一、 查看ha中两个主节点的状态 hdfs haadmin -getServiceState nn1 hdfs haadmin -getServiceState nn2 二、当nn1挂掉时,nn2由standby 状态转为 active 手动执行故障转移 hdfs haadmin -fail...

2019-08-21 00:23:35

阅读数 1

评论数 0

sklearn -- 多项式回归

前言 在面对一些简单的线性问题时。线性回归能够用一个直线较为精确地描述数据之间的关系。但对于复杂的非线性数据问题时。线性回归的效果就大大不如意了。对特征数据进行多项式变化,再使用线性回归的做法就能提高模型的拟合效果,这种方法就是多项式回归。 从面对上图1中的数据,线性回归不能准确描述数据关系。无...

2019-08-12 17:23:26

阅读数 15

评论数 0

阿里云 CDH 安装过程遇到的坑

mysql安装个别文件找不到 上面操作之前先切换到 /usr/local/ 目录 cd /usr/local/ CDH Mysql数据库 JDBC driver cannot be found. 后来在网上找到需要将这个包放到这个路径下就通过了(名字需要修改下) mv mysql-con...

2019-08-08 17:31:26

阅读数 17

评论数 0

jvm -- jps

jps是jdk提供的一个查看当前java进程的命令, 可以看做是JavaVirtual Machine Process Status Tool的缩写。 用法: usage: jps [-help] jps [-q] [-mlvV] [<hostid>] ...

2019-07-30 10:08:12

阅读数 23

评论数 0

kafka -- java消费者远程连接不上集群

Connection to node -1 could not be established. Broker may not be available. 生成者发送消息,在集群上的消费者能接收到消息,但远程的java消费者客户端接收不到,并一直报Connection to node -1 coul...

2019-07-29 19:59:09

阅读数 26

评论数 0

Elasticsearch kibana -- 时区

今天遇到 kibana 和 Elasticsearch 时区不一致,导致有数据时间段内的查询出现异常,其可视化出现图形位移现象。 如:时间是 2019-07-13 10:56:24 却被分到 2019-07-13 18:56:24的桶了 查看了源数据中同一时间段的数据没有,判断是时区出了问题...

2019-07-25 17:49:16

阅读数 27

评论数 0

flink -- 分布式缓存

现在有两种相关的数据,A:机器位置数据,B:机器状态巡检数据 机器位置数据A(:数据量小) ip 位置 192.168.100.1 机柜1编号1机器 192.168.100.2 机柜1编号2机器 192.168.100.3 机柜1编号3机器 192.168.100.4...

2019-07-17 15:50:24

阅读数 19

评论数 0

运维 -- 虚拟机给磁盘扩容

一、删除快照 二、在vmware中扩展磁盘容量 三、安装gparted sudo apt-get install -y gparted 四、打开gparted图形化界面 开启linux d@ubuntu:~$ sudo gparted 五、关闭extended 先关闭linux-...

2019-07-16 19:35:26

阅读数 1084

评论数 0

spark与mysql整合

maven添加msyql 依赖 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> ...

2019-07-11 16:50:33

阅读数 19

评论数 0

spark与Elasticsearch整合

maven添加依赖 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <group...

2019-07-11 16:40:36

阅读数 19

评论数 0

JVM -- 查看内存

如何获得JVM的最大可用内存 在命令行下用 java -Xmx1200m -XX:MaxPermSize=60m -version 命令来进行测试, 然后逐渐的增大XXXX的值,如果执行正常就表示指定的内存大小可用, 否则会打印错误信息。 最后得到的虚拟机实际分配到的 总内存大小=堆内存+非堆内存...

2019-07-05 16:31:32

阅读数 21

评论数 0

Elasticsearch -- search_after

Elasticsearch 搜索返回的数据默认最大为 10000 条,如果需要返回全部的数据,需要修改默认配置或者 scroll 或者 search after 的解决方案。其中 search after 解决方案不需要额外的配置和操作是三者中最合适的解决方案 使用 HTTP 请求实践 GET...

2019-07-04 11:39:35

阅读数 39

评论数 0

CentOS7 yum安装MySQ

MySQL 看日志 sudo journalctl -u mysqld

2019-07-01 11:09:29

阅读数 34

评论数 0

RDD -- RDD中获取文件名并加上一列文件名

需求:spark读取文件生成RDD,需要在RDD中加上一列文件名 wholeTextFiles sc.textFiles() 与 sc.wholeTextFiles() 的区别 sc.textFiles(path) 能将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式 whol...

2019-06-28 15:58:38

阅读数 47

评论数 0

RDD -- flatmap

flatmap flatmap 简单用法 def main(args: Array[String]): Unit = { //设置log级别 Logger.getLogger("org").setLevel(Level.WARN) val conf ...

2019-06-26 17:19:03

阅读数 29

评论数 0

java/scala -- 日期格式字符串转时间戳

scala 日期格式字符串转时间戳 val fm = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss.SSS'Z'") val time = fm.parse(timestamp).getTime() //2019-04-09...

2019-06-26 10:49:08

阅读数 24

评论数 0

tensorflow -- 安装环境

安装 python3-dev、 python3-pip、virtualenv sudo apt update sudo apt install python3-dev python3-pip sudo pip3 install -U virtualenv # system-wide instal...

2019-06-19 16:49:28

阅读数 23

评论数 0

运维 -- 非root账户免密码sudo

linux下为用户配置免密码sudo权限 1.切换到root账号 su - root 2.在配置文件/etc/sudoers中添加 usrName ALL=(ALL) NOPASSWD: ALL

2019-06-19 14:24:09

阅读数 25

评论数 0

elasticsearch -- win10 elasticsearch.bat闪退

win10 elasticsearch.bat闪退怎么搞的 1、在elasticsearch/bin目录下,按shift + 鼠标右键 打开 powershell窗口 2、输入bat文件名 如 elasticsearch.bat 回车运行,这时能看到错误提示,根据提示排查错误即可。 [2019-...

2019-06-19 11:15:25

阅读数 176

评论数 2

提示
确定要删除当前文章?
取消 删除