Enche-CSDN博客

原创 Hadoop——Namenode HA搭建问题记录

记录一、在搭建Namenode HA后，需要先启动journalnode，然后进行namenode format，在启动第二台namenode时需要先向元数据拉取到第二台namenode中，使用 hdfs haadmin -bootstrapStandby进行拉取，不然启动第二台namenode时会出现org.apache.hadoop.hdfs.server.common.Inconsist...

2019-03-10 14:07:39 406

原创 Linux Shell脚本while read Line中调用SSH时出现只执行一次的问题

今天在写zookeeper群起脚本时，将主机名先写好在一个文本中，然后在群起脚本中循环读取主机名，然后使用ssh远程执行命令，发现只执行一次就退出了，但是把ssh远程命令注销之后可以完整的将while循环执行完毕。参考：http://bbs.chinaunix.net/thread-3582099-1-1.htmlhttps://blog.csdn.net/eclipse_c/articl...

2019-03-09 12:38:24 1869

原创 Hadoop——MapReduce过程

MapReduce由Mapper和Reucer组成，Mapper负责处理每行数据，Reducer处理相同Key的一组数据。MapReduce运行是由Driver中的job通过submit()进行作业提交，submit()包含与集群建立连接和提交作业的过程，在提交作业时会进行切片，默认的切片方法是使用的TextInputFormat，它进行切片时根据文件的大小进行切割，默认切割规则是否达到...

2019-03-08 19:14:44 482

原创 Hadoop——使用java对HDFS文件进行增删改查

1、导入相关jar包。将Hadoop目录下的share中的jar包导入到Eclipse2、创建配置信息对象并通过FileSysem.get()回复文件系统对象Configuration conf = new Configuration();//URI对应的地址为core-site.xml中fs.defaultFS对应的地址//“enche”是访问hdfs时的用户名F...

2019-03-08 16:54:17 1199

原创 Hadoop设置Checkpoint点条件

secondary namenode在合并namenode上的fsimage和edits的动作是达到某种条件时才会进行的，一般为到某个时间点或者操作次数达到某个特定的值时会进行checkpoint 在配置checkpoint条件时，需要在hdfs-site.xml进行设置1、每隔3600秒执行一次<property> <name>dfs.namenod...

2019-02-23 19:39:04 1197

原创 Hadoop——使用secondary namenode数据恢复namenode

secondary namenode会定期将fsimage和edits从namenode上拉取进行合并，且在在secondary nemenode上有副本，当namenode节点损坏后，我们可以通过这些副本来还原一定程度上的namenode。还原namenode有两种方法：一、将secondary namenode上的数据复制到namenode上二、使用测试使用方法一进行恢复...

2019-02-23 17:38:08 1495

原创 Hadoop——namenode&secondary namenode

学习记录namenode：主要是管理hdfs集群中的datanode，负责数据块的存储地址位置等，例如：Client上传文件时，namenode他会将该文件块在集群上将要存放的位置告知Client，然后Client得到地址信息后，将数据块上传至对应的位置。每次集群启动时，namenode都要加载fsimage和edtis日志，fsimage相当于namenode的快照，edits中保存着hdf...

2019-02-23 11:38:58 302

原创 Hadoop——机架感知

Hadoop中副本在不同节点之间的复制需要消耗资源，为了充分发挥Hadoop的性能，Hadoop需要配置机架感知，这可以让Hadoop通过网络拓扑图计算不同节点之间的距离，因此来减少数据传输消耗的资源。通过Hadoop官网我们知道，不配置机架感知，所有的都默认为/default-rack，可以通过命令hadoop dfsamin -printTopology来查看Hadoop的网络拓扑情况。...

2019-02-21 22:46:49 542

原创 Shell编程--记录

1、变量定义普通变量定义变量名=内容注意：变量名一般大写，等号左右不能有空格只读变量定义 readonly 变量名=内容只读变量只能赋值一次，等号左右不能有空格2、撤销变量unset 变量名注意：撤销变量只能撤销普通变量，不能撤销只读变量3、执行命令返回值给变量A=`ls -l`或A=$(ls -l)注意使用反引号和$(...

2019-02-21 18:28:49 259

原创 Hadoop--问题记录

启动DFS时出现有些节点不能成功启动，通过日志查看发现Version版本不同，搜索发现造成这种情况的原因是namenode格式化时，有些节点version未删除，有些重新生成，这导致节点之间的version不同。解决方法：清空所有节点的namenode.dir和datanode.dir下的文件，如何格式化namenode, hadoop namenode -format，重新启动，所有节点都启...

2019-02-16 00:21:36 267

原创大数据-linux定时任务

定时任务使用crontab命令 crontab -e 编辑定时任务列表-l 查看定时任务列表-r 移除定时任务定时任务编辑格式* * * * * command五个星号从左到右依次表示分钟小时天月星期01 02 28 1 * /bin/echo "hello,enche" >> /home/enche/result每年的一月28号02点0...

2019-02-11 21:56:34 463

原创 Scala学习记录-映射和元祖

映射：键/值对集合元祖：不同类型值的集合，再访问取值时 tuple._1 tuple._2 从1开始，而非从0开始映射分为可变映射和不可变映射不可变映射创建：val map = Map(1->2,3->3,(2,4)) 键值可以使用key->value也使用(key,value)可变映射创建：导入 import scala.collection.mutab...

2018-09-26 11:42:49 356

原创 Scala学习记录-数组相关操作

数组分为定长数组Array和变长数组ArrayBuffer定长数组：val a = Array(1,2,3,4,5); val b = new Array(length)变长数组：val c = ArrayBuffer(1,2,3,4,5) val d = new ArrayBuffer(len) 数组遍历：for(i <- array){...}for(i<-ar...

2018-09-25 20:25:30 515

原创 Scala学习记录--控制结构和函数

条件表达式if表达式 (1) val s = if( ... ){ ... } else{ ... } (2) if(...){var s = ...} else{ var s = ....} 其中花括号可以省略，返回代码块的最后一个表达式，若不同条件返回的对象不同，则返回的对象会取二者的共同超类语句终止scala可以通过;来终止一条语句，但是在scala中;不...

2018-09-10 23:25:33 290

转载 Pycharm导入Pyspark模块

1 前提：已经安装了pycharm，下载了spark（官网下载，我下的是spark-2.1.1-bin-hadoop2.7.tgz，解压缩后为文件夹spark-2.1.1-bin-hadoop2.7，我将文件放在了/Applications/spark/下，这个文件夹里面有python文件，python文件下还有两个压缩包py4j-some-version.zip和pyspark.zip，之后会用...

2018-07-21 10:54:23 3923 1

原创 TensorFlow--卷积神经网络&GPS数据预测区块车流量大小模型测试代码

数据地址：链接：https://pan.baidu.com/s/1KDPmGenKzOJ2nUoWPYFavw 密码：ir84import numpy as npimport csvimport tensorflow as tfurl = "/home/enche/test/test.csv"data = csv.reader(open(url))x_ = []y_ = []for i in da...

2018-05-06 08:59:30 4294 2

原创 TensorFlow--卷积神经网络&GPS数据预测区块车流量大小模型训练代码

数据地址：链接：https://pan.baidu.com/s/1z59_9dkzRckC2HAJyLMrWg 密码：6py0import numpy as npimport csvimport tensorflow as tfurl = "/home/enche/train/train.csv"data = csv.reader(open(url))x_ = []y_ = []for i in ...

2018-05-06 08:56:59 2075 1

原创记事本

python -m pydoc -p 8080 #python api查看命令import numpy as np np.set_printoptions(threshold=np.inf) #在打印数组时，使所有都打印出来，不会出现和省略 threshold（入口门槛）GradientDescentOptimizer #梯度下降优化程序窗口关闭后继续运行，适合在云服务...

2018-05-06 08:45:32 292

原创 Spark DataFrame读写数据库（Mysql）--记录

从数据库读数据，返回DataFrameimport org.apache.spark.sql.SparkSessionimport java.util.Propertiesobject RWJdbc { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().master("loca...

2018-04-15 09:52:35 2853

原创 Spark入门案例--出租车数据分析

通过分析出租车数据，然后使用KMeans对经纬度进行聚类，然后按照（类别，时间）进行分类，再统计每个类别每个时段的次数。数据地址链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz数据格式以及意义：111,30.655325,104.072573,173749111,30.655346,104.072363,173828111,...

2018-04-03 17:13:50 9463 6

原创 Spark RDD、DataSet、DataFrame--区别（个人理解）

描述：实验将系统数据分别转换成RDD，DataSet、DataFrame，然后进行比较，数据有四列，分别起名为a、b、c、d。class People(a:String, b:String, c:String, d:String)RDD：转换成RDD[People]后，发现每个记录为一个People对象，在进行map操作时候，若想对每个记录进行操作，必须通过map(p=>p.属性) 通过p....

2018-03-30 11:21:13 2561

原创 Tensorflow--入门记录

Tensor为张量，flow为流图。Tensorflow内含有很多写好的工具，如梯度下降算法，卷积操作等。在使用Tensorflow时，先导入包import Tensorflow as tf，在进行定义tensorflow变量时，使用tf.Variable(参数)，有趣的是一个叫做占位符的工具，tf.placeholder(shape)申请一个占位符，这类似设置了一个shape已经知道的未知变量，...

2018-03-27 11:09:13 685 3

原创 Spark--FPGrowth --记录

FPGrowth是一种数据频繁项挖掘算法，著名的应用有啤酒和尿布的例子。通过分析购物篮物品数据，挖掘出几种物品经常出现在一起的组合，在用户选取其中一个物品后，通过频繁项为其推荐其他有一定关联的物品，实现个性化服务。简单概念：支持度：如上文中1000条购物篮数据中，含有尿布的有600条，则尿布的支持度为600/1000*100%=60% 置信度：如上文中同含有尿布的有600条，同时含有...

2018-03-07 11:10:47 612

原创 Spark踩坑记--Broadcast(广播变量) & Accumulator(累加器)

起因：在学习FP-Growth算法时，导入数据建立好Tree后，对输入项A查找其频繁项时，需要在driver端记录下输入项A的支持度计数总和，此时出现在executor端对driver端的变量的值进行更改后，driver端的变量值却没有改变，在好心人的帮助下，发现spark有Broadcast和Accumulator。错误案例：同一个变量打印出现不同结果var goodsFreq = 0Lval...

2018-03-06 21:40:15 858

原创 Spark--SVM（支持向量机）--记录

SVM支持向量机：是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。支持向量机算法：训练集散落在空间中，寻找一个超平面将训练集进行分割成两方，且距离超平面最近的点到超平面的距离最短。设超平面W.X+b=0通过伸缩放大超平面 W.X+b=1，使最近的点到超平面的|W.X+b|=1点到超平面的距离为|W.X+b|/||W||，

2018-01-26 19:31:53 1440 1

原创 Spark--NaiveBayes（朴素贝叶斯分类）--记录

贝叶斯定理解决了在已知P(y),P(x),P(x|y)的情况下求P(y|x)贝叶斯定理：P(y|x) = P(x|y)*P(Y)/P(x)P(y|x) = P(x|y)*P(Y)/P(x)P(y|x) = P(x|y)*P(Y)/P(x)朴素贝叶斯分类：1.从待训练样本逐个求出P(x)、P(y)、P(x|y)对应的概率2.根据贝叶斯定理来对待预测样本进行预测P(y|x) = P(x|y)*P(Y)...

2018-01-15 15:43:36 493

原创 Spark--IsotonicRegression（保序回归算法）--记录

保序回归: 给定了一个无序的数字序列，通过修改每个元素的值，得到一个非递减的数字序列，要求是使得误差（预测值和实际值差的平方）最小。比如在动物身上实验某种药物，使用了不同的剂量，按理说剂量越大，有效的比例就应该越高，但是如果发现了剂量大反而有效率降低了，这个时候就只有把无序的两个元素合并了，重新计算有效率，直到计算出来的有效率不大于比下一个元素的有效率。PAVA法：循环遍历序列，若发现前者A大

2018-01-13 19:53:03 2230

原创 Spark--LogisticRegressionWithLBFGS（多项逻辑回归也适用于二项逻辑回归）--记录

测试数据：链接: https://pan.baidu.com/s/1kWYIVAJ 密码: ig5v代码以及注释：import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGSimport org.apache.spark.mllib.regression.LabeledPointimport org

2018-01-13 15:00:33 2934

原创 Spark--LinearRegressionWithSGD

测试数据：链接: https://pan.baidu.com/s/1i7owaXJ 密码: 4wqg代码记录：import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD}import org.

2018-01-12 19:39:21 1080

原创 Spark--LinearRegression（线性回归模型训练）--记录

代码记录：使用数据地址：链接: https://pan.baidu.com/s/1c2Pn4FQ 密码: ex9yimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.regression.LinearRegressionimport org.apache.spark.sql.SparkSession

2018-01-12 18:56:40 1841

原创 Spark-处理GPS数据------记录

原始文件转CSV1、DMP文件导入Oracle数据库搭建好Oracle、Oracle客户端、PL/SQL，通过PL/SQL导入原始的DMP文件。可能出现的问题：PL/SQL》Pool中没有出现对应的选项。解决方法：先安装Office（注意Office 64位还是32位）,再在PL/SQL中添加对应的驱动，然后导入数据，数据很大，需要耐心等待。2、Oracle数据库中导出CS

2018-01-12 18:45:37 2910

原创 Spark搭建过程--记录

1.大部分参考http://www.cnblogs.com/shishanyuan/p/4699644.html这个博主写的，在此十分感谢这个博主。2.搭建完可能遇到找不到hadoop配置的情况。出现Error: Cannot find configuration directory: /etc/hadoop解决方法：在hadoop-env.sh 配置一条hadoop配置文件所在目录

2018-01-12 18:25:43 372

原创 Spark入门-scala实现二次或多次排序问题

例如有个数据表结构如：年龄年级姓名...希望首先根据年龄大小进行排序，如果年龄大小相同的情况下，再考虑年级大小的情况二次排序或多次排序：spark中使用基本的排序一般为sortByKey方法，在进行二次排序或者多次排序时需要自己想办法解决，sortByKey方法中主要是根据key键对象实现的compare方法进行排序的，根据compare返回的Int型整数来判断对比的

2017-12-28 10:20:17 1328

原创 Spark+Hadoop安装注意事项

1.安装之前选择合适的版本，避免使用被淘汰的版本2.注意不同版本Spark和不同Hadoop以及JDK和SDK版本的兼容性3.如果是作为学习，可以只搭建local模式，只有一个节点，Hadoop和Spark都可以只设置一个节点4.下载Idea使用时需要下载Scala插件，并导入JDK和SDK，还需要导入对应的Spark Jar包5.hadoop的data目录所在分区最好选用剩余磁盘

2017-12-21 19:44:51 786

原创 python+opencv 车牌识别实现

识别思路：1、通过摄像头采集图片2、对图片进行去噪、对比度加强处理等操作3、车牌位置的定位，采集到车牌信息4、对车牌字母进行分割5、通过卷积神经网络训练出来的模型，对采集车牌的各个字母进行识别6、对结果进行组合，最后得到车牌信息环境搭建：python2.7opencv3.3

2017-12-01 15:34:44 16260 3

原创机器学习--物以类聚（k-means算法）

k-means算法是无监督学习算法，没有标签值，通过自身分析自身的数据，自己进行分类。此次实现参考了其他博客的实现。k-means中k的意思表示的是分类数目。数据集下载地址：链接：http://pan.baidu.com/s/1cfhvAY 密码：7nk8思想：1.将数据集中的每条数据视为空间中的一个点2.随机选取k条作为基准的数据3.遍历数据集，分别计算每条数据转化为

2017-11-17 21:45:09 807

原创机器学习--KNN算法带你光棍节脱单

KNN算法上一篇已经进行过介绍，现在主要进行实际操作，通过对实际数据进行分析，来对没有见过面的美女帅哥进行要不要进行约会作出判断。以下有一系列采集整理好的数据，第一列表示每年乘坐飞机飞行的里程数（高富帅，白富美比较偏向坐飞机，我们这种屌丝就坐坐火车啦），第二列表示每年吃冰淇淋的公升数，第三列表示玩游戏时间占的百分比（喜欢玩游戏的注意了哈，小心找不到白富美），第四列主要表示要不要约会的程度，数值

2017-11-10 11:16:17 572

原创机器学习实战--最简单算法--KNN算法（k-近邻算法）

参考书籍--《机器学习实战》k-近邻算法（一下简称knn算法）是机器学习中最简单的算法，通过计算待预测分类点到已知类别点之间的距离，通过距离的远近来分类带预测分类点，越近表示这两种点的类别越近。优点：精度高，对异常值不敏感缺点：计算复杂度高（不适合数据量较大的分类），空间复杂度较高knn算法属于有监督学习算法，每次对数据分类时都要对所有的数据进行计算，所以有计算复杂度的问题。待

2017-11-08 18:57:10 451

原创机器学习十大算法--回归算法（批量梯度下降）

机器学习算法分为有监督学习和无监督学习，回归算法属于监督学习一类。本人小白一个，想学习机器学习，以后有新的学习结果，希望多可以写在博客上面，以此来监督自己的学习，如有不对的地方，还希望大家多多谅解，指出错误。回归算法主要是对已给的数据通过调整参数的手段来使计算结果接近于标签值，但是数据点并非完全都恰好在一条直线上，因此需要有一个来评定调整后的参数的标准，一般使用类似方差的损失函数来评定调整后的

2017-10-27 17:17:06 2173

原创 jsdom

1. DOM Document Object Model(文本对象模型)2. 节点及其类型 element node、attribute node、text node; text node是element node的子节点； 3. JS写在什么地方 1).HTML代码和JS代码耦合在一起缺点：不利于代码维护 Clic

2017-06-19 21:28:16 407

空空如也

空空如也