2017年02月_链巨人

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 GPS轨迹数据集免费下载资源整理

本文主要是整理了GPS轨迹数据集免费资源库，从这些库中能够免费下载到GPS数据，同时还整理出了这些数据的格式，数据集的简单描述等等。如果你发现更好的相关数据资源，欢迎共享 :)1. GeoLife GPS Trajectories该GPS轨迹数据集出自微软研究GeoLift项目。从2007年四月到2012年八月收集了182个用户的轨迹数据。这些数据包含了一系列以时间为序的点，每一个点包含经纬度、海拔

2017-02-27 23:35:32 38577 52

原创在Intelij IDEA中修改maven为国内镜像（阿里）

操作系统：window 国内镜像：阿里打开IntelliJ IDEA->Settings ->Build, Execution, Deployment -> Build Tools > Maven或者直接搜索maven具体如下图所示：而一般情况下在c:\Users\xx.m2\这个目录下面没有settings.xml文件，我们可以新建一个，settings.xml文件下的内容是：直接粘贴复制保存在

2017-02-26 11:59:41 61247 9

原创 gitlab的安装和使用

本文将要讲到的是在centos6.5上面安装gitlab的过程和使用演示.一、安装：安装Gitlab参考的安装教程是官网的，地址为：Gitlab官方安装教程地址1、安装准备：官网教程上面的第一步是安装curl、ssh、postfix和cronie工具。第一个工具用于下载安装包，第二个用于安全访问和文件传输，第三个是用来搭建自己的邮箱服务器，第四个是linux定时任务工具。因为我们的机器连不了外网，所

2017-02-24 21:36:55 8150

原创理解spark闭包

当用户提交了一个用scala语言写的Spark程序，Spark框架会调用哪些组件呢？首先，这个Spark程序就是一个“Application”，程序里面的mian函数就是下图所示的“Driver Program”，前面已经讲到它的作用，只是，dirver程序的可能运行在客户端，也有可有可能运行在spark集群中，这取决于spark作业提交时参数的选定，比如，yarn-client和yarn-clu

2017-02-24 14:27:09 5978 7

原创 Spark组件和术语定义

Application：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码；Driver：Spark中的Driver即运行上述Application的main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准

2017-02-24 13:59:10 961

原创 RDD（Resilient Distributed Datasets 弹性分布式数据集）

RDD是spark计算框架的核心，spark相比于hadoop的优越性在RDD中体现得淋漓尽致。对于RDD的介绍，最好的资料就是那篇专门介绍RDD的论文了，已经有中文翻译。使用scala编写spark应用，给人的感觉就像是在使用scala编写普通的scala程序，感觉spark编程和scala编程完成融合在一起了– RDD就是scala的一个类。 RDD是一个只读不可修改的数据集，在scala

2017-02-24 13:39:18 2612

原创 Spark运行模式(local standalond,yarn-client,yarn-cluster,mesos-client,mesos-cluster)

spark部署在单台机器上面时，可以使用本地模式（Local）运行；当部署在分布式集群上面的时候，可以根据自己的情况选择Standalone模式（Spark自带的模式）、YARN-Client模式或者YARN-Cluster模式、Spark on Mesos模式。本地单机模式所有的Spark进程都运行在一台机器或一个虚拟机上面。Spark任务提交的方式为：spark-submit master=l

2017-02-23 17:33:09 5385

转载谷歌新发布的分布式数据库服务，是要打破CAP定理了吗？

谷歌新发布的分布式数据库服务，是要打破CAP定理了吗？本来来自：Original 2017-02-19 作者｜登州知府2月14日，Google 宣布推出 Cloud Spanner 云端数据库服务的 Beta 版。Cloud Spanner 是构建在 Google Cloud Platform（GCP）平台上的全球级分布式关系型数据库服务，主要为 OLTP 场景的核心业务应用提供服务。不同于 Big

2017-02-19 23:05:44 1230

转载 GeoHash核心原理解析

http://www.cnblogs.com/LBSer/p/3310455.html引子　　机机是个好动又好学的孩子，平日里就喜欢拿着手机地图点点按按来查询一些好玩的东西。某一天机机到北海公园游玩，肚肚饿了，于是乎打开手机地图，搜索北海公园附近的餐馆，并选了其中一家用餐。　　饭饱之后机机开始反思了，地图后台如何根据自己所在位置查询来查询附近餐馆的呢？苦思冥想了半天，机机想出了个方法：计算所在位置

2017-02-16 23:06:46 414

转载图解GeoHash算法--MongoDB 地理位置索引的实现原理

转载自：http://blog.nosqlfan.com/html/1811.html地理位置索引支持是MongoDB的一大亮点，这也是全球最流行的LBS服务foursquare 选择MongoDB的原因之一。我们知道，通常的数据库索引结构是B+ Tree，如何将地理位置转化为可建立B+Tree的形式，下文将为你描述。首先假设我们将需要索引的整个地图分成16×16的方格，如下图（左下角为坐标0,0

2017-02-16 22:32:54 4084

原创在docker中搭建apache Tomcat+JDK环境

本人电脑环境:安装好docker的open SUSE操作系统最终的docker镜像：ubuntu+tomcat+jdk运行ubuntu镜像 sudo docker run -it -v /home/liangyh/tmp/software:/mnt/software/ ubuntu:latest /bin/bash-v：表示增加一个卷，前面的地址是本机文件系统的地址，后面那个是docker

2017-02-16 10:42:56 1493

原创 docker本地私有仓库搭建

pull registry镜像并启动成容器sudo docker run -d -p 5000:5000 –restart=always –name registry -v pwd/data:/var/lib/registry registry:latestpull ubuntu镜像并修改该镜像的标签，标签的格式为：ip地址：端口号/名字sudo docker pull ubuntu && sud

2017-02-16 10:07:55 862

原创网络爬虫-自动推送小说最新章节的小应用--懒惰的追小说者

需求：本人在追两部小说，《大主宰》和《斗罗大陆3-龙王传说》，每过几个小时就去打开网页，点击bookmark，看看有没有更新。现在的需求是：我不需要用浏览器查看有没有更新，只要这两部小说更新了，这个应用就自动推送到我的手机上并提醒我。思路：写一个定时的应用，每15分钟访问一下相应的小说网页，如果有更新的小说章节，就下载下来，编辑好格式，发到我的qq邮箱上面。实现语言：java服务器：腾讯云工具

2017-02-15 15:04:29 1136

原创 Scala使用JUnit4单元测试

Scala使用JUnit4单元测试Maven pom:<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version> <scope>test</scope></dependency>Test code:import org.junit.{Assert, Test

2017-02-15 13:47:49 5072

原创 Java程序后台运行，即使关掉Putty终端

Java程序后台运行，即使关掉Putty终端比如，通过Putty启动远程主机上面的文件 java -cp Crawler.jar Main&关闭Putty终端之后，这个java程序也会被中断的。重新登录Putty，连接远程主机，使用命令 jps检查一下java进程，发现之前启动的java程序已经关闭了。因此，需要使用linux的nohup命令 nohup java -cp Crawl

2017-02-12 22:21:31 1884

翻译 Kubernetes是什么

英文链接：https://en.wikipedia.org/wiki/KubernetesKubernetes（通常写成“k8s”）是最开始由google设计开发最后贡献给Cloud Native Computing Foundation的开源容器集群管理项目。它的设计目标是在主机集群之间提供一个能够自动化部署、可拓展、应用容器可运营的平台。Kubernetes通常结合docker容器工具工作，并且

2017-02-11 15:06:13 52167 2

转载 Docker的性能损耗：以基因组分析流程为例

Docker的性能损耗：以基因组分析流程为例IBM Research在2014年的一篇论文中，曾对比了Docker容器和虚拟机对CPU和内存的性能损耗，相比传统虚拟机技术，容器的性能更佳。那么对比物理机，Docker的性能又是怎样的呢？2015年9月的一篇论文『The impact of Docker containers on the performance of genomic pipeline

2017-02-09 23:42:37 11971 2

转载你的首个 Progressive Web App

Progressive Web Apps 是结合了 web 和原生应用中最好功能的一种体验。对于首次访问的用户它是非常有利的, 用户可以直接在浏览器中进行访问，不需要安装应用。随着时间的推移当用户渐渐地和应用建立了联系，它将变得越来越强大。它能够快速地加载，即使在比较糟糕的网络环境下，能够推送相关消息, 也可以像原生应用那样添加至主屏，能够有全屏浏览的体验。什么是 Progressive Web

2017-02-09 15:53:08 5131

原创 Scala堆的方式进行Spark topK词频查询（根据value进行TreeMap排序）

本文使用了两种方法进行spark 的top k词频查询，第S一种方法在很多博客中都介绍到了的，但是这种方法有一个问题，那就是在大数据的情况下效率不高，因为它是通过sparkAPI中的top方法来计算的，这个过程会引起一个耗时的“洗牌“过程；第二种方法在其他博客中基本没有看到，使用的是堆的方式，具体为采用immutable.TreeMap这个自带排序功能的类，但是需要我们稍微修改以下，让它能够根据va

2017-02-08 13:40:34 3594

原创结构化数据、半结构化数据和非结构化数据

结构化数据、半结构化数据和非结构化数据结构化数据结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。举一个例子：id name age gender1 lyh 12 male2 liangyh 13 female3

2017-02-04 18:23:03 94733 11

转载 Hermes实时检索分析平台

一、序言随着TDW的发展，公司在大数据离线分析方面已经具备了行业领先的能力。但是，很多应用场景往往要求在数秒内完成对几亿、几十亿甚至几百上千亿的数据分析,从而达到不影响用户体验的目的。如何能够及时有效的获取分析结果提高工作效率，这是许多分析人员在面对大数据所不得不面临的问题。要满足这样的需求，可以采用精心设计的传统关系型数据库组成并行处理集群，或者采用一些内存计算平台，或者采用HDD的架构，

2017-02-02 10:49:18 1798

原创 text、RC、Parquet、ORC

数据格式：text、RC、Parquet、ORC相同大小的原始数据集，转换成相应的格式之后的文件大小：Text > RC > Parquet > ORCText/CSVcsv文件不支持块压缩，所以在Hadoop中使用压缩的CSV文件经常会带来很低的读性能。无法存储元数据。新的字段只能追加到所有字段的尾部，并且不能产出已经存在的字段。支持有限的模式演进。JSON能够存储元数据。不支持块压缩。第三方

2017-02-02 10:03:46 4511 1

本人的关于联邦学习的论文

本人的联邦学习论文， Auditable Federated Learning With Byzantine Robustness 所上传的PDF文件和发表在IEEE网站（https://ieeexplore.ieee.org/document/10107728）上面的版本基本无内容上的差别。目的是为了让大家能够免费或许的该论文。欢迎引用！ Yihuai Liang; Yan Li; Byeong-Seok Shin, "Auditable Federated Learning With Byzantine Robustness," in IEEE Transactions on Computational Social Systems, doi: 10.1109/TCSS.2023.3266019.

2023-04-25

源码：zk-SNARKs实战：使用circom和snarkjs实现简单版的Tornado

该源代码对应本人博文《zk-SNARKs实战：使用circom和snarkjs实现简单版的Tornado（含源码）》，如要看该文章，可直接在百度中根据题目搜索

2022-04-12

斯坦福教授Cryptography 课程思维导图.emmx

斯坦福教授Cryptography 课程思维导图.emmx，使用mindmaster软件可打开编辑

2021-12-16

Project-battleship.zip

https://editor.csdn.net/md?not_checkout=1&articleId=116459829 这里介绍一个基于区块链以太坊开发的战舰游戏项目。做这个项目的初衷是对layer2区块链技术的proof-of-concept。因此，本项目是一个可以在每一个人的电脑上面执行的demo。使用的编程技术有： - HTML； Javascript; CCS; (网页前端) - Web3 （提供了调用智能合约的js接口） - ganache-cli （在本地模拟以太坊节点） - remix （以太坊智能合约的IDE） - Solidity （智能合约编程语言）具体的环境配置请阅读本人的上一篇文章： [区块链/以太坊/智能合约solidity，全栈开发区块链借贷记账小应用，含完整源码](https://liangyihuai.blog.csdn.net/article/details/115913338)

2021-05-06

zn_STOPWORDS.txt

中文stopwords，用于中文文本分析所需要的中断词，比如“的”，数字，等等

2020-12-31

my presentation on RDD & Spark.pptx

这是一个Apache Spark的演讲ppt，全都是英文的，制作时间是2020年的。包含Spart的最近状态，RDD和其生态。my presentation on RDD & Spark.pptx

2020-10-25

TrInc, Small Trusted Hardware for Large Distributed Systems..pdf

TrInc: Small Trusted Hardware for Large Distributed Systems.

2020-08-28

Confidentiality Support over Financial Grade consortium blockchain.pdf

论文SIGMOD2020， Confidentiality Support over Financial Grade consortium blockchain，

2020-08-21

cryptography 1.zip

斯坦福密码学1公开课ppt课件，课程链接为：https://www.coursera.org/learn/crypto? 含PPT格式和PDF格式。

2020-04-18

images.zip

Eigenface 和Fisherface 图片资源，配套的源码是https://github.com/liangyihuai/Eigenface-Fisherface

2019-12-13

ETCFlyClient.pptx

ETC flyclient ppt，全部是英文，具体可以查看本人博客https://blog.csdn.net/liangyihuai/article/details/103129061 或者知乎https://zhuanlan.zhihu.com/p/92474360

2019-11-18

Xu et al. - 2019 - Making Big Data Open in Edges A Resource-Efficien.pdf

论文 - Making Big Data Open in Edges: A Resource-Efficient Blockchain-Based Approach

2019-10-05

如何系统地写一篇好论文

该资源以PPT的形式详细且系统地总结了写一篇被接收的论文所应该注意的东西，已经如何去写，论文的每一部分应该包含什么。该资源来自帝国理工学院（Imperial College London），1907年建立于英国伦敦，是一所主攻理学、工学、医学和商学的世界顶尖公立研究型大学。五分，物有所值

2019-01-03

Mastering Apache Flink, Learning Apache Flink

书名叫Mastering Apache Flink, Learning Apache Flink，英文高清版，支持复制

2018-12-18

KDBC2018-Proceedings 该会议的所有论文

KDBC2018-Proceedings 该会议的所有论文, 大部分为韩文，一部分为英文，会议的全名为：Korean Database Conference

2018-10-23

File Structures_ An Object-Oriented Approach with C++(1997)

书名：Michael J. Folk, Bill Zoellick, Greg Riccardi-File Structures_ An Object-Oriented Approach with C++-Addison Wesley (1997) 全部都是英文的。讲解的是文件结构，包括如何组织类对象，如何持续化存储等等。

2018-06-15

c++实现索引的文档

c++实现索引的文档, 比较详细的讲解，是英文版的。和前面两个文档是一起的。

2018-06-15

c++多个对象序列化和持久化的结构和访问形式

这个文档讲了c++中多个对象序列化和持久化的结构和访问形式。英文。结合上一次所上传的文档，讲解的都是对象序列化和持久化的。

2018-06-15

C++对象序列化（存储到硬盘）

讲述了C++对象如何序列化（存储到硬盘），涉及到比较详细的细节方面的讲解。英文。

2018-06-14

resnet50 testing dataset

resnet50 testing dataset, 是手势的测试集，具体可以查看本人博客。

2018-01-23

resnet 50 training dataset，手势

resnet 50 training dataset，该数据集表示手势的，总共分为6类，这个是训练用的。具体查看本人博客。

2018-01-23

the colour image processing handbook SJ Sangwine ， REN Horne

the colour image processing handbook SJ Sangwine ， REN Horne, 是英文本的。可是使用鼠标选择复制，质量应该是不错的。

2017-09-07

Jeff-Dean-s-Lecture-for-YC-AI

这个是Google Brain大牛Jeff dean讲课视频的ppt，讲述了目前google目前在人工智能方面的研究和进展。视频地址 https://www.youtube.com/watch?v=HcStlHGpjN8&feature=youtu.be

2017-08-28

基于Spark的移动用户主要活动地点的挖掘算法实现以及JavaEE技术整合TTP

这个是本人的本科毕业设计答辩ppt，为了更好地共享资源，象征性地收取1资源分！

2017-06-07

busybox制作根文件系统

这个文档讲到了busybox制作根文件系统的相关内容

2016-12-12

Java 1.8 lambda表达式示例源码

2016-11-28

protobuf2.6.1

这个是最新的protobuf，（MD5: f3916ce13b7fcb3072a1fa8cf02b2423) 使用tar -zxf protobuf-**.tar.gz命令解压后得到是 protobuf-**的源码， cd protobuf-** 进入目录假如你希望编译成功后输出的目录为 /home/work /protobuf/ 则输入如下两条命令： ./configure --prefix=/home/work/protobuf/ make && make install 编译成功后将export PATH= /home/work /protobuf/bin:$PATH加入到环境变量中最后输入 protoc --version命令，如显示protobuf-**则安装成功

2016-05-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

本人的关于联邦学习的论文

源码：zk-SNARKs实战：使用circom和snarkjs实现简单版的Tornado

斯坦福教授Cryptography 课程思维导图.emmx

Project-battleship.zip

zn_STOPWORDS.txt

my presentation on RDD & Spark.pptx

TrInc, Small Trusted Hardware for Large Distributed Systems..pdf

Confidentiality Support over Financial Grade consortium blockchain.pdf

cryptography 1.zip

images.zip

ETCFlyClient.pptx

Xu et al. - 2019 - Making Big Data Open in Edges A Resource-Efficien.pdf

如何系统地写一篇好论文

Mastering Apache Flink, Learning Apache Flink

KDBC2018-Proceedings 该会议的所有论文

File Structures_ An Object-Oriented Approach with C++(1997)

c++实现索引的文档

c++多个对象序列化和持久化的结构和访问形式

C++对象序列化（存储到硬盘）

resnet50 testing dataset

resnet 50 training dataset，手势

the colour image processing handbook SJ Sangwine ， REN Horne

Jeff-Dean-s-Lecture-for-YC-AI

基于Spark的移动用户主要活动地点的挖掘算法实现以及JavaEE技术整合TTP

busybox制作根文件系统

Java 1.8 lambda表达式示例源码

protobuf2.6.1

cglib-3.2jar包

asm-all.5.0.4

第一个spring所以到的jar包

Spring框架的示例项目源码 Spring Petclinic

空空如也