自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (10)
  • 收藏
  • 关注

原创 Spark-概述、目录文件构成、spark shell、SparkUI

1)Spark是什么?Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark 扩展了广泛使用的MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然比MapReduce 更加高效。2)spark软件栈Spark Core:Spark ...

2018-04-17 22:05:15 658

原创 Hive-An overview

1)Hive是什么?    大数据来临,海量的数据存储在分布式文件系统上。我们想像传统关系型数据库一样使用HDFS以及像使用SQL语句一样使用HDFS。Hive应运而生,Hive是适合于数据仓库应用的程序,进行静态数据分析,不需要给出快速响应结果,数据本身不会频繁变化。2)Hive和关系型数据差别不支持记录级别的更新、插入、删除、事务、联机事务处理。3)Hive与Hadoop MapReduce ...

2018-04-13 22:05:27 193

原创 轨迹挖掘综述

轨迹挖掘系统框架轨迹挖掘分为6个模块:模块1(轨迹预处理):1.噪声清洗、2.分段、3.停留点检测、4.压缩、5.地图匹配模块2(轨迹数据管理、查询、编码):1.top-k最近的邻居查询、2.一个范围查询、3.历史数据查询、4.最近(实时)数据查询模块3(轨迹的不确定性研究):1.减少轨迹的不确定性,具体来说,轨迹是连续的,轨迹点是离散的,减少两个轨迹点之间不 确定性。2.保护乘客的隐私。具体来说...

2018-04-08 14:45:45 5541 1

原创 Spark分布式集群搭建(三)安装job history server +intellj idea设置

SPARK_HOME/conf 下:spark-defaults.conf 增加如下内容spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress truespark-env.sh 增加如下内容export SPARK_HISTORY_OPTS=”-D...

2018-04-29 22:21:28 283

转载 IntelliJ IDEA快捷键

因为IntelliJ IDEA的快捷键分类也分的不错的,这里主要你需要搞定两个:Editor Actions,Version Control System==================================================自己学快捷键的经过:==Ctrl==Ctrl + Y 删除行ctrl + X 剪切行Ctrl + N 查找类Ctrl + R 替换Ctrl + O...

2018-04-29 20:29:01 144

转载 数据挖掘顶级会议与期刊分析

JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/transactions/tk...

2018-04-29 20:24:47 6499

原创 Spark分布式集群搭建(二):Hive安装(hive+元数据库mysql+intellj idea 集成开发环境 +linux)

本篇内容分为三部分:元数据库mysql安装+hive安装+intellj idea开发使用hive)1)元数据库mysql安装:Step1: 采用apt-get安装mysql Step2: 启动mysql服务 Step3: 进入mysql命令行 Step4: 创建一个database name为hive的数据库用于hive数据文件的存储 Step5: 给当前用户授权 命令如下:sudo apt-g...

2018-04-29 19:26:01 226

转载 hadoop fs -mkdir testdata错误 提示No such file or directory

解决方法: hadoop fs -mkdir -p testdata

2018-04-29 18:08:18 419

转载 远程连接ubuntu mysql出现2003错误 cant connect to mysql

不多说直接上代码 1.在控制台输入,进入mysql目录下,sudo su //进入root权限cd /etc/mysql122.打开my.cnf文件,找到 bind-address = 127.0.0.1 在前面加上#注释掉,如下: #bind-address = 127.0.0.1 3.然后在添加如下代码;OK。skip-external-lockingskip-name-resolve1...

2018-04-29 18:06:10 386

转载 hive报Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection

Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection在hive/lib添加mysql.jar包

2018-04-29 18:04:09 2881

转载 vi 新建文件保存文件时遇到的问题:E212: Can't open file for writing

用vi 新建一个文件,hello.c 或者hello ,然后 :wq 进行保存退出,退出不了,一直出现这个提示 意思是不能保存。原因是权限不够,普通用户用vi 进行不了保存,需要使用超级用户才可以命令:sudo su     转换成超级用户           vi hello       打开文件 :wq 即可保存退出...

2018-04-24 09:48:39 8066

转载 解决E: Encountered a section with no Package: header错误

 解决E: Encountered a section with no Package: header错误    我的ubuntu机器上出现下面这个错误。    Reading package lists... Error!    E: Encountered a section with no Package: header    E: Problem with MergeList /var/l...

2018-04-24 09:28:22 665

转载 Ubuntu 使用 su 切换用户时提示 Authentication failure 解决方法

问题产生的原因Ubuntu 系统默认是没有激活 root 用户,需要用户手动开启。解决方法按快捷键 Ctrl + Alt + T,打开命令行界面在当前用户下输入 sudo passwd,出现如下命令,输入当前用户的密码 如果输入的密码正确,这时候就会出现下面的命令,意思是叫我们设置新的 UNIX 密码。 输入想要设置的密码之后,重复确认密码,它就会提示你,密码设置成功。 ...

2018-04-23 17:46:42 441

原创 scala-富包装器

基本类型//基本类型 int long short byte 都有8、16、10进制三种形式//16进制val hex= 0XAF//8进制val hex1 = 1234567//long类型val hex2 = 35L// short类型val hex3 : Short = 367val hex4 : Byte = 16...

2018-04-23 10:55:17 553

转载 Scala中==,eq与equals的区别

Scala中==,eq与equals的区别根据官方API的定义:final def ==(arg0: Any): BooleanThe expression x == that is equivalent to if (x eq null) that eq null else x.equals(that).final def eq(arg0: AnyRef): BooleanTests wheth...

2018-04-23 10:43:50 947

原创 Scala—类与对象

类的定义:class DiDi {  val parameter1 = 0}类的初始化:val didi1 = new DiDival didi2 = new DiDididi1.parameter1 = 1/** * Created by jiaoshuhai on 2018/4/22. */class DiDi {  var parameter1 = 0 //不写权限的就是public  pr...

2018-04-22 22:26:38 364

原创 Scala 入门

1)Scala简介与特性Scala是一种把面向对象和函数式编程加入静态类型语言的混合体。Scala是函数式的:函数是头等值:与整数、字符串处于同一个地位。函数里可以接着定义函数,就像定义整数一样。函数不应该有副作用/应该把输入值映射为输出值而不是就地更改数据。鼓励使用不可变的数据结构和指称透明的方法2)scala入门2.1变量定义 val 和var。val里面的java的final变量。一旦初始化...

2018-04-22 17:38:12 144

原创 Spark分布式集群搭建(一)Spark虚拟机集群搭建:Hadoop+Spark伪分布式集群(虚拟机)+IntellJIdea 的环境搭建

环境搭建顺序:1)安装hadoop  2)在hadoop上安装Spark集群  3)IntellJIdea连接Spark集群写在前面:凡是涉及到的linux系统操作,建议以root用户权限进行工作准备工作共有两项:虚拟机配置+SSH服务安装准备工作1:虚拟机配置1.1  安装 VMware Workstation 12 player(虚拟机软件)1.2   在 VMware Workstation...

2018-04-21 18:01:59 676

原创 Spark—弹性分布式数据集RDD

1)RDD的起源Hadoop的数据存储模式为:从物理存储上加载数据、操作数据、然后写入物理存储设备。缺点1:运行迭代式算法很慢、无法进行交互式的数据挖掘解决方法:数据存储在内存中缺点2:实现数据集的容错性(数据恢复)代价高(庞大的数据集网络传输)解决方法:高度受限的共享内存(思想如下)2)RDD定义RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能够...

2018-04-18 13:57:12 509

原创 Spark—Spark编程的核心概念

通过一个驱动器程序创建一个SparkContext 和一系列RDD,然后进行并行操作。    从上层来看,每个Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作。驱动器程序包含应用的main 函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应用了相关操作。    驱动器程序通过一个SparkContext 对象来访问Spark。这个对象代表对计算...

2018-04-18 08:50:19 278

原创 Matlab作图——柱状图

类型一:% Create data for childhood disease casesmeasles = [75.6];mumps = [80.12];chickenPox = [4.7];% Create a vertical bar chart using the bar functionfigurebar([measles' mumps'], 0.5)% Set the axis lim...

2018-04-13 21:32:21 2328

原创 轨迹不确定性研究—(减少轨迹点之间的不确定性+轨迹隐私保护)

减少轨迹不确定性分为两类:查询建模如上图所示,当我们需要查询经过R区域的轨迹时,灰色轨迹(低采样率)是否应该包含在内。使用独立的概率密度函数在每个时间点或随机过程(如马尔可夫链),以更好地模拟对象的不确定位置,并回答不同的查询。第二类为:从不确定性轨迹中进行路径推测。核心思想:通过多条不确定性轨迹,确定确定性轨迹。如几条轨迹的交汇点为确定点。具体来说,有两种具体方法:第一种方法:一种是为道路网络环...

2018-04-13 20:30:49 2636

原创 Fréchet distance(弗雷歇距离)-用于地图匹配

Fréchet distance(弗雷歇距离)是法国数学家Maurice René Fréchet在1906年提出的一种路径空间相似形描述( 此外还在这篇论文里定义了 度量空间),这种描述同时还考虑进路径空间距离的因素[1],对于空间路径的相似性比较适用。直观的理解,Fréchet distance就是狗绳距离:主人走路径A,狗走路径B,各自走完这两条路径过程中所需要的最短狗绳长度。...

2018-04-09 11:29:03 20827

原创 轨迹预处理(地图匹配Map Matching)

地图匹配Map Matching可以按照两个标准分类两类一种是是否使用了额外的信息,另外一种是轨迹中采样的范围。第一种方法可以分为四类:几何、拓扑、概率、先进技术几何:将GPS点匹配到最近的道路。拓扑:使用frechet distance。计算一段轨迹和一条道路的frechet distance,如果小于阈值,则匹配。概率:为了解决轨迹噪声和低采样率问题。概率算法对GPS噪声作了明确的规定,并通过...

2018-04-09 11:27:25 18744 9

原创 轨迹预处理(轨迹分段)

在轨迹聚类,分类之前,我们通常要将轨迹分段。第一种轨迹分段方法是利用“时间间隔”分段。具体来说,如果两个轨迹点之间的时间差较大,则进行分段;另外一种则是按照时间段将轨迹分段。第二种方法是基于轨迹的形状。具体来说,基于轨迹点方向的角度变化大小分段,如果变化超过一定的阈值,则分段;另外一种方法“线简化”算法。类似轨迹压缩算法,轨迹压缩点为分段点。第三种方法是基于语义信息,基于停留点分段。还有一种是基于...

2018-04-09 10:52:08 11580

原创 马氏距离 Mahalanobis距离——用于异常轨迹检测

基础知识:假设空间中两点x,y,定义:欧几里得距离,Mahalanobis距离,不难发现,如果去掉马氏距离中的协方差矩阵,就退化为欧氏距离。那么我们就需要探究这个多出来的因子究竟有什么含义。例子:    如果我们以厘米为单位来测量人的身高,以克(g)为单位测量人的体重。每个人被表示为一个两维向量,如一个人身高173cm,体重50000g,表示为(173,50000),根据身高体重的信息来判断体型的...

2018-04-08 22:59:39 3519 1

原创 异常轨迹检测(识别偏航轨迹+轨迹异常原因识别)

偏航轨迹有两种,一种是整个轨迹全部偏航,另一种是部分轨迹偏航。基本的思想是将轨迹进行聚类,或者找出两地间频繁的出行模式。如果一条轨迹不属于任何一个聚类,则认为轨迹偏航轨迹异常原因有多种,包含事故、交通控制、抗议、庆典、灾难、大型体育运动等轨迹异常原因识别:1)根据主要路网形状,将城市分为一个个不相连的区域,并根据两个区域之间行驶的车辆的轨迹,识别两个区域之间的异常联系。2)考虑每个道路的三个特征:...

2018-04-08 22:33:17 12049

原创 循环神经网络RNN——利用LSTM对脑电波信号进行分类,Keras实现

本文对脑电波信号进行分类。人类大脑在接受不同的刺激(光照、声音)时,脑电波的形状是不一样的。因而,想通过对脑电波进行学习,从而判断大脑接受了哪种刺激。我们在人的大脑上安装了32个芯片,芯片的分布如下图所示。这些芯片每隔一定的秒数就会测得信号、这些信号就是脑电波信号。显然,脑电波数据是时间序列。脑电波的时间序列如下:每一条脑电波都对应了一种刺激(共6种),结构如下:本文构建了LSTM模型来对脑电波数...

2018-04-08 16:42:37 10903 13

原创 轨迹预处理(轨迹压缩)

轨迹压缩分为在线压缩和离线压缩两类。在介绍两类压缩算法之前,本文先介绍两种“距离度量”方法第一种距离度量方法是:垂直的欧几里得距离,如图b所示,p1、p7、p12作为压缩后的点。“垂直度量”则为做垂线计算。第二种距离度量方法是:时间同步的欧几里得距离,如图a所示,p1、p7、p12作为压缩后的点。p1与p2之间是3秒,p2与p3之间是2秒,物体移动的速度是恒定的,通过这种方法计算时间同步的欧几里得...

2018-04-08 15:42:36 6651

原创 轨迹预处理(停留点检测)

停留点分为两类:静止不动停留点、徘徊型停留点静止不动停留点:通过距离阈值、速度等即可识别徘徊型停留点: 1. 对于一个轨迹点g来说,找到距离它100米的一个点g100;                         2.统计g 和g100之间的时间跨度                         3.如果时间跨度超过阈值,则将中间的点识别为停留点...

2018-04-08 15:01:29 11105

原创 轨迹预处理(轨迹清洗)-均值中值滤波、启发式滤波

均值、中值滤波对于一个轨迹点g来说,要想判断该点是否合理。选取g点之前的n个点,通过G点之前n个点平均距离,判断轨迹点g是否合理。启发式滤波对于一个轨迹点g来说,要想判断该点是否合理。选取g点d米范围之内的所有轨迹点,统计这些轨迹的个数number。对于一条轨迹来说,统计每个点的d米范围之内的所有轨迹点的个数,该个数用t_number表示。如果number < t_number ,则考虑该轨...

2018-04-08 14:56:22 9210 1

谷歌DFS+Mapreduce+Bigtable三大论文中英文版本

谷歌DFS+Mapreduce+Bigtable三大论文中英文版本 已经整理完成

2018-04-18

数据库技术概论(王珊 萨师煊)

SQL 王珊 萨师煊版经典书目 数据库技术概论

2016-05-25

Oracle数据库经典学习教程

Oracle数据库经典学习教程

2016-05-25

广度优先搜索(BFS)java实现

广度优先搜索(BFS)java实现

2015-10-29

SNL语言编译器

基于snl语言的编译器 源代码 希望对编译器的开发者有帮助

2013-12-24

minijava编译器

源语言为minijava的编译器 源代码

2013-12-24

android 漂亮界面

漂亮的android界面 简洁好看 以蘑菇街为原型设计 购物界面的小范本

2013-10-03

android 启动界面

正在加载的android启动界面 简洁漂亮 适合初学者

2013-10-03

漂亮的粉色拼图ppt模板

很漂亮的粉色拼图ppt模板

2013-10-03

基于安卓的音乐播放器

基于android的音乐播放器源代码 支持歌词显示和模式切换 页面简洁漂亮 适合于初学者

2013-04-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除