2018年04月_「已注销」

08月 07月 06月 05月 04月

原创 Spark-概述、目录文件构成、spark shell、SparkUI

1）Spark是什么？Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark 扩展了广泛使用的MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark 的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上进行的复杂计算，Spark 依然比MapReduce 更加高效。2）spark软件栈Spark Core：Spark ...

2018-04-17 22:05:15 658

原创 Hive-An overview

1）Hive是什么？大数据来临，海量的数据存储在分布式文件系统上。我们想像传统关系型数据库一样使用HDFS以及像使用SQL语句一样使用HDFS。Hive应运而生，Hive是适合于数据仓库应用的程序，进行静态数据分析，不需要给出快速响应结果，数据本身不会频繁变化。2）Hive和关系型数据差别不支持记录级别的更新、插入、删除、事务、联机事务处理。3）Hive与Hadoop MapReduce ...

2018-04-13 22:05:27 193

原创轨迹挖掘综述

轨迹挖掘系统框架轨迹挖掘分为6个模块：模块1（轨迹预处理）：1.噪声清洗、2.分段、3.停留点检测、4.压缩、5.地图匹配模块2（轨迹数据管理、查询、编码）：1.top-k最近的邻居查询、2.一个范围查询、3.历史数据查询、4.最近（实时）数据查询模块3（轨迹的不确定性研究）：1.减少轨迹的不确定性，具体来说，轨迹是连续的，轨迹点是离散的，减少两个轨迹点之间不确定性。2.保护乘客的隐私。具体来说...

2018-04-08 14:45:45 5541 1

原创 Spark分布式集群搭建（三）安装job history server +intellj idea设置

SPARK_HOME/conf 下:spark-defaults.conf 增加如下内容spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress truespark-env.sh 增加如下内容export SPARK_HISTORY_OPTS=”-D...

2018-04-29 22:21:28 283

转载 IntelliJ IDEA快捷键

因为IntelliJ IDEA的快捷键分类也分的不错的，这里主要你需要搞定两个：Editor Actions，Version Control System==================================================自己学快捷键的经过：==Ctrl==Ctrl + Y 删除行ctrl + X 剪切行Ctrl + N 查找类Ctrl + R 替换Ctrl + O...

2018-04-29 20:29:01 144

转载数据挖掘顶级会议与期刊分析

JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/transactions/tk...

2018-04-29 20:24:47 6499

原创 Spark分布式集群搭建(二)：Hive安装（hive+元数据库mysql+intellj idea 集成开发环境 +linux）

本篇内容分为三部分：元数据库mysql安装+hive安装+intellj idea开发使用hive）1）元数据库mysql安装：Step1：采用apt-get安装mysql Step2：启动mysql服务 Step3：进入mysql命令行 Step4：创建一个database name为hive的数据库用于hive数据文件的存储 Step5：给当前用户授权命令如下：sudo apt-g...

2018-04-29 19:26:01 226

转载 hadoop fs -mkdir testdata错误提示No such file or directory

解决方法： hadoop fs -mkdir -p testdata

2018-04-29 18:08:18 419

转载远程连接ubuntu mysql出现2003错误 cant connect to mysql

不多说直接上代码 1.在控制台输入,进入mysql目录下，sudo su //进入root权限cd /etc/mysql122.打开my.cnf文件，找到 bind-address = 127.0.0.1 在前面加上#注释掉，如下： #bind-address = 127.0.0.1 3.然后在添加如下代码；OK。skip-external-lockingskip-name-resolve1...

2018-04-29 18:06:10 386

转载 hive报Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection

Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection在hive/lib添加mysql.jar包

2018-04-29 18:04:09 2881

转载 vi 新建文件保存文件时遇到的问题：E212: Can't open file for writing

用vi 新建一个文件，hello.c 或者hello ,然后 :wq 进行保存退出，退出不了，一直出现这个提示意思是不能保存。原因是权限不够，普通用户用vi 进行不了保存，需要使用超级用户才可以命令：sudo su 转换成超级用户 vi hello 打开文件：wq 即可保存退出...

2018-04-24 09:48:39 8066

转载解决E: Encountered a section with no Package: header错误

解决E: Encountered a section with no Package: header错误我的ubuntu机器上出现下面这个错误。 Reading package lists... Error! E: Encountered a section with no Package: header E: Problem with MergeList /var/l...

2018-04-24 09:28:22 665

转载 Ubuntu 使用 su 切换用户时提示 Authentication failure 解决方法

问题产生的原因Ubuntu 系统默认是没有激活 root 用户，需要用户手动开启。解决方法按快捷键 Ctrl + Alt + T，打开命令行界面在当前用户下输入 sudo passwd，出现如下命令，输入当前用户的密码如果输入的密码正确，这时候就会出现下面的命令，意思是叫我们设置新的 UNIX 密码。输入想要设置的密码之后，重复确认密码，它就会提示你，密码设置成功。 ...

2018-04-23 17:46:42 441

原创 scala-富包装器

基本类型//基本类型 int long short byte 都有8、16、10进制三种形式//16进制val hex= 0XAF//8进制val hex1 = 1234567//long类型val hex2 = 35L// short类型val hex3 : Short = 367val hex4 : Byte = 16...

2018-04-23 10:55:17 553

转载 Scala中==,eq与equals的区别

Scala中==,eq与equals的区别根据官方API的定义：final def ==(arg0: Any): BooleanThe expression x == that is equivalent to if (x eq null) that eq null else x.equals(that).final def eq(arg0: AnyRef): BooleanTests wheth...

2018-04-23 10:43:50 947

原创 Scala—类与对象

类的定义：class DiDi { val parameter1 = 0}类的初始化：val didi1 = new DiDival didi2 = new DiDididi1.parameter1 = 1/** * Created by jiaoshuhai on 2018/4/22. */class DiDi { var parameter1 = 0 //不写权限的就是public pr...

2018-04-22 22:26:38 364

原创 Scala 入门

1）Scala简介与特性Scala是一种把面向对象和函数式编程加入静态类型语言的混合体。Scala是函数式的：函数是头等值：与整数、字符串处于同一个地位。函数里可以接着定义函数，就像定义整数一样。函数不应该有副作用/应该把输入值映射为输出值而不是就地更改数据。鼓励使用不可变的数据结构和指称透明的方法2）scala入门2.1变量定义 val 和var。val里面的java的final变量。一旦初始化...

2018-04-22 17:38:12 144

原创 Spark分布式集群搭建（一）Spark虚拟机集群搭建：Hadoop+Spark伪分布式集群（虚拟机）+IntellJIdea 的环境搭建

环境搭建顺序：1）安装hadoop 2）在hadoop上安装Spark集群 3）IntellJIdea连接Spark集群写在前面：凡是涉及到的linux系统操作，建议以root用户权限进行工作准备工作共有两项：虚拟机配置+SSH服务安装准备工作1：虚拟机配置1.1 安装 VMware Workstation 12 player（虚拟机软件）1.2 在 VMware Workstation...

2018-04-21 18:01:59 676

原创 Spark—弹性分布式数据集RDD

1）RDD的起源Hadoop的数据存储模式为：从物理存储上加载数据、操作数据、然后写入物理存储设备。缺点1：运行迭代式算法很慢、无法进行交互式的数据挖掘解决方法：数据存储在内存中缺点2：实现数据集的容错性（数据恢复）代价高（庞大的数据集网络传输）解决方法：高度受限的共享内存(思想如下)2）RDD定义RDD是分布式内存的一个抽象概念，是一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，能够...

2018-04-18 13:57:12 509

原创 Spark—Spark编程的核心概念

通过一个驱动器程序创建一个SparkContext 和一系列RDD，然后进行并行操作。从上层来看，每个Spark 应用都由一个驱动器程序（driver program）来发起集群上的各种并行操作。驱动器程序包含应用的main 函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。驱动器程序通过一个SparkContext 对象来访问Spark。这个对象代表对计算...

2018-04-18 08:50:19 278

原创 Matlab作图——柱状图

类型一：% Create data for childhood disease casesmeasles = [75.6];mumps = [80.12];chickenPox = [4.7];% Create a vertical bar chart using the bar functionfigurebar([measles' mumps'], 0.5)% Set the axis lim...

2018-04-13 21:32:21 2328

原创轨迹不确定性研究—（减少轨迹点之间的不确定性+轨迹隐私保护）

减少轨迹不确定性分为两类：查询建模如上图所示，当我们需要查询经过R区域的轨迹时，灰色轨迹（低采样率）是否应该包含在内。使用独立的概率密度函数在每个时间点或随机过程（如马尔可夫链），以更好地模拟对象的不确定位置，并回答不同的查询。第二类为：从不确定性轨迹中进行路径推测。核心思想：通过多条不确定性轨迹，确定确定性轨迹。如几条轨迹的交汇点为确定点。具体来说，有两种具体方法：第一种方法：一种是为道路网络环...

2018-04-13 20:30:49 2636

原创 Fréchet distance(弗雷歇距离)-用于地图匹配

Fréchet distance(弗雷歇距离)是法国数学家Maurice René Fréchet在1906年提出的一种路径空间相似形描述( 此外还在这篇论文里定义了度量空间)，这种描述同时还考虑进路径空间距离的因素[1]，对于空间路径的相似性比较适用。直观的理解，Fréchet distance就是狗绳距离：主人走路径A，狗走路径B，各自走完这两条路径过程中所需要的最短狗绳长度。...

2018-04-09 11:29:03 20827

原创轨迹预处理（地图匹配Map Matching）

地图匹配Map Matching可以按照两个标准分类两类一种是是否使用了额外的信息，另外一种是轨迹中采样的范围。第一种方法可以分为四类：几何、拓扑、概率、先进技术几何：将GPS点匹配到最近的道路。拓扑：使用frechet distance。计算一段轨迹和一条道路的frechet distance，如果小于阈值，则匹配。概率：为了解决轨迹噪声和低采样率问题。概率算法对GPS噪声作了明确的规定，并通过...

2018-04-09 11:27:25 18744 9

原创轨迹预处理（轨迹分段）

在轨迹聚类，分类之前，我们通常要将轨迹分段。第一种轨迹分段方法是利用“时间间隔”分段。具体来说，如果两个轨迹点之间的时间差较大，则进行分段；另外一种则是按照时间段将轨迹分段。第二种方法是基于轨迹的形状。具体来说，基于轨迹点方向的角度变化大小分段，如果变化超过一定的阈值，则分段；另外一种方法“线简化”算法。类似轨迹压缩算法，轨迹压缩点为分段点。第三种方法是基于语义信息，基于停留点分段。还有一种是基于...

2018-04-09 10:52:08 11580

原创马氏距离 Mahalanobis距离——用于异常轨迹检测

基础知识：假设空间中两点x，y，定义：欧几里得距离，Mahalanobis距离，不难发现，如果去掉马氏距离中的协方差矩阵，就退化为欧氏距离。那么我们就需要探究这个多出来的因子究竟有什么含义。例子：如果我们以厘米为单位来测量人的身高，以克（g）为单位测量人的体重。每个人被表示为一个两维向量，如一个人身高173cm，体重50000g，表示为（173,50000），根据身高体重的信息来判断体型的...

2018-04-08 22:59:39 3519 1

原创异常轨迹检测（识别偏航轨迹+轨迹异常原因识别）

偏航轨迹有两种，一种是整个轨迹全部偏航，另一种是部分轨迹偏航。基本的思想是将轨迹进行聚类，或者找出两地间频繁的出行模式。如果一条轨迹不属于任何一个聚类，则认为轨迹偏航轨迹异常原因有多种，包含事故、交通控制、抗议、庆典、灾难、大型体育运动等轨迹异常原因识别：1）根据主要路网形状，将城市分为一个个不相连的区域，并根据两个区域之间行驶的车辆的轨迹，识别两个区域之间的异常联系。2）考虑每个道路的三个特征：...

2018-04-08 22:33:17 12049

原创循环神经网络RNN——利用LSTM对脑电波信号进行分类，Keras实现

本文对脑电波信号进行分类。人类大脑在接受不同的刺激（光照、声音）时，脑电波的形状是不一样的。因而，想通过对脑电波进行学习，从而判断大脑接受了哪种刺激。我们在人的大脑上安装了32个芯片，芯片的分布如下图所示。这些芯片每隔一定的秒数就会测得信号、这些信号就是脑电波信号。显然，脑电波数据是时间序列。脑电波的时间序列如下：每一条脑电波都对应了一种刺激（共6种），结构如下：本文构建了LSTM模型来对脑电波数...

2018-04-08 16:42:37 10903 13

原创轨迹预处理（轨迹压缩）

轨迹压缩分为在线压缩和离线压缩两类。在介绍两类压缩算法之前，本文先介绍两种“距离度量”方法第一种距离度量方法是：垂直的欧几里得距离，如图b所示，p1、p7、p12作为压缩后的点。“垂直度量”则为做垂线计算。第二种距离度量方法是：时间同步的欧几里得距离，如图a所示，p1、p7、p12作为压缩后的点。p1与p2之间是3秒，p2与p3之间是2秒，物体移动的速度是恒定的，通过这种方法计算时间同步的欧几里得...

2018-04-08 15:42:36 6651

原创轨迹预处理（停留点检测）

停留点分为两类：静止不动停留点、徘徊型停留点静止不动停留点：通过距离阈值、速度等即可识别徘徊型停留点： 1. 对于一个轨迹点g来说，找到距离它100米的一个点g100； 2.统计g 和g100之间的时间跨度 3.如果时间跨度超过阈值，则将中间的点识别为停留点...

2018-04-08 15:01:29 11105

原创轨迹预处理（轨迹清洗）-均值中值滤波、启发式滤波

均值、中值滤波对于一个轨迹点g来说，要想判断该点是否合理。选取g点之前的n个点，通过G点之前n个点平均距离，判断轨迹点g是否合理。启发式滤波对于一个轨迹点g来说，要想判断该点是否合理。选取g点d米范围之内的所有轨迹点，统计这些轨迹的个数number。对于一条轨迹来说，统计每个点的d米范围之内的所有轨迹点的个数，该个数用t_number表示。如果number < t_number ，则考虑该轨...

2018-04-08 14:56:22 9210 1