Hadoop——使用secondary namenode数据恢复namenode

secondary namenode会定期将fsimage和edits从namenode上拉取进行合并,且在在secondary nemenode上有副本,当namenode节点损坏后,我们可以通过这些副本来还原一定程度上的namenode。 还原namenode有两种方法: 一、将secon...

2019-02-23 17:38:08

阅读数 4

评论数 0

Hadoop——namenode&secondary namenode

学习记录 namenode:主要是管理hdfs集群中的datanode,负责数据块的存储地址位置等,例如:Client上传文件时,namenode他会将该文件块在集群上将要存放的位置告知Client,然后Client得到地址信息后,将数据块上传至对应的位置。每次集群启动时,namenode都要加...

2019-02-23 11:38:58

阅读数 3

评论数 0

Hadoop——机架感知

Hadoop中副本在不同节点之间的复制需要消耗资源,为了充分发挥Hadoop的性能,Hadoop需要配置机架感知,这可以让Hadoop通过网络拓扑图计算不同节点之间的距离,因此来减少数据传输消耗的资源。 通过Hadoop官网我们知道,不配置机架感知,所有的都默认为/default-rack,可以...

2019-02-21 22:46:49

阅读数 1

评论数 0

Shell编程--记录

1、变量定义 普通变量定义    变量名=内容    注意:变量名一般大写,等号左右不能有空格 只读变量定义    readonly 变量名=内容    只读变量只能赋值一次,等号左右不能有空格 2、撤销变量 unset 变量名 注意:撤销变量只能撤销普通变量,不能撤销只读变量 ...

2019-02-21 18:28:49

阅读数 5

评论数 0

Hadoop--问题记录

启动DFS时出现有些节点不能成功启动,通过日志查看发现Version版本不同,搜索发现造成这种情况的原因是namenode格式化时,有些节点version未删除,有些重新生成,这导致节点之间的version不同。 解决方法:清空所有节点的namenode.dir和datanode.dir下的文件...

2019-02-16 00:21:36

阅读数 19

评论数 0

大数据-linux定时任务

定时任务使用crontab 命令 crontab   -e 编辑定时任务列表 -l 查看定时任务列表 -r 移除定时任务 定时任务编辑格式 * * * * * command 五个星号从左到右依次表示 分钟 小时 天 月 星期 01 02 28 1 * /bin/echo &...

2019-02-11 21:56:34

阅读数 40

评论数 0

Scala学习记录-映射和元祖

映射:键/值对集合 元祖:不同类型值的集合,再访问取值时 tuple._1    tuple._2 从1开始,而非从0开始 映射分为可变映射和不可变映射 不可变映射创建:val map = Map(1->2,3->3,(2,4))  键值可以使用k...

2018-09-26 11:42:49

阅读数 83

评论数 0

Scala学习记录-数组相关操作

数组分为定长数组Array和变长数组ArrayBuffer 定长数组:val a = Array(1,2,3,4,5); val b = new Array(length) 变长数组:val c = ArrayBuffer(1,2,3,4,5) val d = new ArrayBuffer(...

2018-09-25 20:25:30

阅读数 76

评论数 0

Scala学习记录--控制结构和函数

条件表达式 if表达式   (1) val s = if( ... ){ ... } else{ ... }        (2) if(...){var s = ...} else{ var s = ....} 其中花括号可以省略,返回代码块的最后一个表达式, 若不同条件返回的对象不同,则...

2018-09-10 23:25:33

阅读数 69

评论数 0

Pycharm导入Pyspark模块

1 前提:已经安装了pycharm,下载了spark(官网下载,我下的是spark-2.1.1-bin-hadoop2.7.tgz,解压缩后为文件夹spark-2.1.1-bin-hadoop2.7,我将文件放在了/Applications/spark/下,这个文件夹里面有python文件,pyt...

2018-07-21 10:54:23

阅读数 584

评论数 0

TensorFlow--卷积神经网络&GPS数据预测区块车流量大小模型测试代码

数据地址:链接:https://pan.baidu.com/s/1KDPmGenKzOJ2nUoWPYFavw 密码:ir84import numpy as npimport csvimport tensorflow as tfurl = "/home/enche/test/te...

2018-05-06 08:59:30

阅读数 1224

评论数 2

TensorFlow--卷积神经网络&GPS数据预测区块车流量大小模型训练代码

数据地址:链接:https://pan.baidu.com/s/1z59_9dkzRckC2HAJyLMrWg 密码:6py0import numpy as npimport csvimport tensorflow as tfurl = "/home/enche/train/t...

2018-05-06 08:56:59

阅读数 294

评论数 0

记事本

python -m pydoc -p 8080        #python api查看命令import numpy as np  np.set_printoptions(threshold=np.inf)     #在打印数组时,使所有都打印出来,不会出现和省略  threshold(入口 门槛...

2018-05-06 08:45:32

阅读数 57

评论数 0

Spark DataFrame读写数据库(Mysql)--记录

从数据库读数据,返回DataFrame import org.apache.spark.sql.SparkSession import java.util.Properties object RWJdbc { def main(args: Array[String]): Unit = { ...

2018-04-15 09:52:35

阅读数 927

评论数 0

Spark入门案例--出租车数据分析

通过分析出租车数据,然后使用KMeans对经纬度进行聚类,然后按照(类别,时间)进行分类,再统计每个类别每个时段的次数。数据地址 链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz数据格式以及意义:111,30.655325,1...

2018-04-03 17:13:50

阅读数 723

评论数 1

Spark RDD、DataSet、DataFrame--区别(个人理解)

描述:实验将系统数据分别转换成RDD,DataSet、DataFrame,然后进行比较,数据有四列,分别起名为a、b、c、d。class People(a:String, b:String, c:String, d:String)RDD:转换成RDD[People]后,发现每个记录为一个Peopl...

2018-03-30 11:21:13

阅读数 806

评论数 0

Tensorflow--入门记录

Tensor为张量,flow为流图。Tensorflow内含有很多写好的工具,如梯度下降算法,卷积操作等。在使用Tensorflow时,先导入包import Tensorflow as tf,在进行定义tensorflow变量时,使用tf.Variable(参数),有趣的是一个叫做占位符的工具,t...

2018-03-27 11:09:13

阅读数 309

评论数 3

Spark--FPGrowth --记录

FPGrowth是一种数据频繁项挖掘算法,著名的应用有啤酒和尿布的例子。通过分析购物篮物品数据,挖掘出几种物品经常出现在一起的组合,在用户选取其中一个物品后,通过频繁项为其推荐其他有一定关联的物品,实现个性化服务。简单概念:    支持度:如上文中1000条购物篮数据中,含有尿布的有600条,则尿...

2018-03-07 11:10:47

阅读数 97

评论数 0

Spark踩坑记--Broadcast(广播变量) & Accumulator(累加器)

起因:在学习FP-Growth算法时,导入数据建立好Tree后,对输入项A查找其频繁项时,需要在driver端记录下输入项A的支持度计数总和,此时出现在executor端对driver端的变量的值进行更改后,driver端的变量值却没有改变,在好心人的帮助下,发现spark有Broadcast和A...

2018-03-06 21:40:15

阅读数 227

评论数 0

Spark--SVM(支持向量机)--记录

SVM支持向量机:是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。 支持向量机算法:训练集散落在空间中,寻找一个超平面将训练集进行分割成两方,且距离超平面最近的点到超平面的距离最短。 设超平面W.X+b=0 通过伸缩放大超平面 W...

2018-01-26 19:31:53

阅读数 291

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭