- 博客(22)
- 资源 (32)
- 收藏
- 关注
原创 GPS轨迹数据集免费下载资源整理
本文主要是整理了GPS轨迹数据集免费资源库,从这些库中能够免费下载到GPS数据,同时还整理出了这些数据的格式,数据集的简单描述等等。如果你发现更好的相关数据资源,欢迎共享 :)1. GeoLife GPS Trajectories该GPS轨迹数据集出自微软研究GeoLift项目。从2007年四月到2012年八月收集了182个用户的轨迹数据。这些数据包含了一系列以时间为序的点,每一个点包含经纬度、海拔
2017-02-27 23:35:32 38577 52
原创 在Intelij IDEA中修改maven为国内镜像(阿里)
操作系统:window 国内镜像:阿里打开IntelliJ IDEA->Settings ->Build, Execution, Deployment -> Build Tools > Maven或者直接搜索maven具体如下图所示:而一般情况下在c:\Users\xx.m2\这个目录下面没有settings.xml文件,我们可以新建一个,settings.xml文件下的内容是:直接粘贴复制保存在
2017-02-26 11:59:41 61247 9
原创 gitlab的安装和使用
本文将要讲到的是在centos6.5上面安装gitlab的过程和使用演示.一、安装:安装Gitlab参考的安装教程是官网的,地址为:Gitlab官方安装教程地址1、安装准备:官网教程上面的第一步是安装curl、ssh、postfix和cronie工具。第一个工具用于下载安装包,第二个用于安全访问和文件传输,第三个是用来搭建自己的邮箱服务器,第四个是linux定时任务工具。因为我们的机器连不了外网,所
2017-02-24 21:36:55 8150
原创 理解spark闭包
当用户提交了一个用scala语言写的Spark程序,Spark框架会调用哪些组件呢?首先,这个Spark程序就是一个“Application”,程序里面的mian函数就是下图所示的“Driver Program”, 前面已经讲到它的作用,只是,dirver程序的可能运行在客户端,也有可有可能运行在spark集群中,这取决于spark作业提交时参数的选定,比如,yarn-client和yarn-clu
2017-02-24 14:27:09 5978 7
原创 Spark组件和术语定义
Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;Driver:Spark中的Driver即运行上述Application的main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准
2017-02-24 13:59:10 961
原创 RDD(Resilient Distributed Datasets 弹性分布式数据集)
RDD是spark计算框架的核心,spark相比于hadoop的优越性在RDD中体现得淋漓尽致。对于RDD的介绍,最好的资料就是那篇专门介绍RDD的论文了,已经有中文翻译。使用scala编写spark应用,给人的感觉就像是在使用scala编写普通的scala程序,感觉spark编程和scala编程完成融合在一起了– RDD就是scala的一个类。 RDD是一个只读不可修改的数据集,在scala
2017-02-24 13:39:18 2612
原创 Spark运行模式(local standalond,yarn-client,yarn-cluster,mesos-client,mesos-cluster)
spark部署在单台机器上面时,可以使用本地模式(Local)运行;当部署在分布式集群上面的时候,可以根据自己的情况选择Standalone模式(Spark自带的模式)、YARN-Client模式或者YARN-Cluster模式、Spark on Mesos模式。 本地单机模式所有的Spark进程都运行在一台机器或一个虚拟机上面。Spark任务提交的方式为:spark-submit master=l
2017-02-23 17:33:09 5385
转载 谷歌新发布的分布式数据库服务,是要打破CAP定理了吗?
谷歌新发布的分布式数据库服务,是要打破CAP定理了吗?本来来自:Original 2017-02-19 作者|登州知府2月14日,Google 宣布推出 Cloud Spanner 云端数据库服务的 Beta 版。Cloud Spanner 是构建在 Google Cloud Platform(GCP)平台上的全球级分布式关系型数据库服务,主要为 OLTP 场景的核心业务应用提供服务。不同于 Big
2017-02-19 23:05:44 1230
转载 GeoHash核心原理解析
http://www.cnblogs.com/LBSer/p/3310455.html引子 机机是个好动又好学的孩子,平日里就喜欢拿着手机地图点点按按来查询一些好玩的东西。某一天机机到北海公园游玩,肚肚饿了,于是乎打开手机地图,搜索北海公园附近的餐馆,并选了其中一家用餐。 饭饱之后机机开始反思了,地图后台如何根据自己所在位置查询来查询附近餐馆的呢?苦思冥想了半天,机机想出了个方法:计算所在位置
2017-02-16 23:06:46 414
转载 图解GeoHash算法--MongoDB 地理位置索引的实现原理
转载自:http://blog.nosqlfan.com/html/1811.html地理位置索引支持是MongoDB的一大亮点,这也是全球最流行的LBS服务foursquare 选择MongoDB的原因之一。我们知道,通常的数据库索引结构是B+ Tree,如何将地理位置转化为可建立B+Tree的形式,下文将为你描述。首先假设我们将需要索引的整个地图分成16×16的方格,如下图(左下角为坐标0,0
2017-02-16 22:32:54 4084
原创 在docker中搭建apache Tomcat+JDK环境
本人电脑环境:安装好docker的open SUSE操作系统最终的docker镜像:ubuntu+tomcat+jdk运行ubuntu镜像 sudo docker run -it -v /home/liangyh/tmp/software:/mnt/software/ ubuntu:latest /bin/bash-v:表示增加一个卷,前面的地址是本机文件系统的地址,后面那个是docker
2017-02-16 10:42:56 1493
原创 docker本地私有仓库搭建
pull registry镜像并启动成容器sudo docker run -d -p 5000:5000 –restart=always –name registry -v pwd/data:/var/lib/registry registry:latestpull ubuntu镜像并修改该镜像的标签,标签的格式为:ip地址:端口号/名字sudo docker pull ubuntu && sud
2017-02-16 10:07:55 862
原创 网络爬虫-自动推送小说最新章节的小应用--懒惰的追小说者
需求:本人在追两部小说,《大主宰》和《斗罗大陆3-龙王传说》,每过几个小时就去打开网页,点击bookmark,看看有没有更新。现在的需求是:我不需要用浏览器查看有没有更新,只要这两部小说更新了,这个应用就自动推送到我的手机上并提醒我。思路:写一个定时的应用,每15分钟访问一下相应的小说网页,如果有更新的小说章节,就下载下来,编辑好格式,发到我的qq邮箱上面。实现语言:java服务器:腾讯云工具
2017-02-15 15:04:29 1136
原创 Scala使用JUnit4单元测试
Scala使用JUnit4单元测试Maven pom:<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version> <scope>test</scope></dependency>Test code:import org.junit.{Assert, Test
2017-02-15 13:47:49 5072
原创 Java程序后台运行,即使关掉Putty终端
Java程序后台运行,即使关掉Putty终端比如,通过Putty启动远程主机上面的文件 java -cp Crawler.jar Main&关闭Putty终端之后,这个java程序也会被中断的。重新登录Putty,连接远程主机,使用命令 jps检查一下java进程,发现之前启动的java程序已经关闭了。因此,需要使用linux的nohup命令 nohup java -cp Crawl
2017-02-12 22:21:31 1884
翻译 Kubernetes是什么
英文链接:https://en.wikipedia.org/wiki/KubernetesKubernetes(通常写成“k8s”)是最开始由google设计开发最后贡献给Cloud Native Computing Foundation的开源容器集群管理项目。它的设计目标是在主机集群之间提供一个能够自动化部署、可拓展、应用容器可运营的平台。Kubernetes通常结合docker容器工具工作,并且
2017-02-11 15:06:13 52167 2
转载 Docker的性能损耗:以基因组分析流程为例
Docker的性能损耗:以基因组分析流程为例IBM Research在2014年的一篇论文中,曾对比了Docker容器和虚拟机对CPU和内存的性能损耗,相比传统虚拟机技术,容器的性能更佳。那么对比物理机,Docker的性能又是怎样的呢?2015年9月的一篇论文『The impact of Docker containers on the performance of genomic pipeline
2017-02-09 23:42:37 11971 2
转载 你的首个 Progressive Web App
Progressive Web Apps 是结合了 web 和 原生应用中最好功能的一种体验。对于首次访问的用户它是非常有利的, 用户可以直接在浏览器中进行访问,不需要安装应用。随着时间的推移当用户渐渐地和应用建立了联系,它将变得越来越强大。它能够快速地加载,即使在比较糟糕的网络环境下,能够推送相关消息, 也可以像原生应用那样添加至主屏,能够有全屏浏览的体验。什么是 Progressive Web
2017-02-09 15:53:08 5131
原创 Scala堆的方式进行Spark topK词频查询(根据value进行TreeMap排序)
本文使用了两种方法进行spark 的top k词频查询,第S一种方法在很多博客中都介绍到了的,但是这种方法有一个问题,那就是在大数据的情况下效率不高,因为它是通过sparkAPI中的top方法来计算的,这个过程会引起一个耗时的“洗牌“过程;第二种方法在其他博客中基本没有看到,使用的是堆的方式,具体为采用immutable.TreeMap这个自带排序功能的类,但是需要我们稍微修改以下,让它能够根据va
2017-02-08 13:40:34 3594
原创 结构化数据、半结构化数据和非结构化数据
结构化数据、半结构化数据和非结构化数据结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:id name age gender1 lyh 12 male2 liangyh 13 female3
2017-02-04 18:23:03 94733 11
转载 Hermes实时检索分析平台
一、序言 随着TDW的发展,公司在大数据离线分析方面已经具备了行业领先的能力。但是,很多应用场景往往要求在数秒内完成对几亿、几十亿甚至几百上千亿的数据分析,从而达到不影响用户体验的目的。如何能够及时有效的获取分析结果提高工作效率,这是许多分析人员在面对大数据所不得不面临的问题。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,
2017-02-02 10:49:18 1798
原创 text、RC、Parquet、ORC
数据格式:text、RC、Parquet、ORC相同大小的原始数据集,转换成相应的格式之后的文件大小:Text > RC > Parquet > ORCText/CSVcsv文件不支持块压缩,所以在Hadoop中使用压缩的CSV文件经常会带来很低的读性能。无法存储元数据。新的字段只能追加到所有字段的尾部,并且不能产出已经存在的字段。支持有限的模式演进。JSON能够存储元数据。不支持块压缩。第三方
2017-02-02 10:03:46 4511 1
本人的关于联邦学习的论文
2023-04-25
源码:zk-SNARKs实战:使用circom和snarkjs实现简单版的Tornado
2022-04-12
Project-battleship.zip
2021-05-06
my presentation on RDD & Spark.pptx
2020-10-25
TrInc, Small Trusted Hardware for Large Distributed Systems..pdf
2020-08-28
Confidentiality Support over Financial Grade consortium blockchain.pdf
2020-08-21
cryptography 1.zip
2020-04-18
images.zip
2019-12-13
ETCFlyClient.pptx
2019-11-18
Xu et al. - 2019 - Making Big Data Open in Edges A Resource-Efficien.pdf
2019-10-05
如何系统地写一篇好论文
2019-01-03
Mastering Apache Flink, Learning Apache Flink
2018-12-18
KDBC2018-Proceedings 该会议的所有论文
2018-10-23
File Structures_ An Object-Oriented Approach with C++(1997)
2018-06-15
resnet 50 training dataset,手势
2018-01-23
the colour image processing handbook SJ Sangwine , REN Horne
2017-09-07
Jeff-Dean-s-Lecture-for-YC-AI
2017-08-28
protobuf2.6.1
2016-05-29
Spring框架的示例项目源码 Spring Petclinic
2015-09-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人