别和硬盘比记忆-CSDN博客

原创 RESTFUL API

RESTful API一、基本概念RESTful API是一种约束、一种设计理念、一种架构风格，跟编程语言无关，跟平台无关，采用HTTP做传输协议。它使用URI定位资源，用HTTP动词（GET,POST,DELETE,DETC）描述操作。其中URI为统一资源标识符，服务器上每一种资源，比如文档、图像、视频片段、程序都由一个通用资源标识符（Uniform Resource Identifi...

2019-10-28 11:49:06 440

原创 GeoMesa-Kafka

GeoMesa KafkaGeoMesa 2.3.0和2.3.1支持kafka 0.9之后的版本，但是对于kafka1.0之前的版本有些特性不支持GeoMesa 2.2.X支持的kafka版本相同。一、GeoMesa Kafka安装1、直接从github上下载最新版本(2.3.1)进行安装。github地址：<https://github.com/locationtech/geom...

2019-10-28 11:48:06 1100 1

原创 PageRank算法

一、算法描述：。。。二、代码实现：package com.hadoop.mr.pagerank;import java.io.IOException;import java.util.Arrays;import org.apache.commons.lang.StringUtils;public class Node { private double pageRank = ...

2019-07-09 13:04:06 203

原创 Hbase在小米中的应用

简介1、在hbase上层开发结构化存储和对象存储服务。2、基础架构图Hbase上层为存储服务，其中OpenTSDB为时序数据存储服务3、数据备份机制：热备、冷备、Point-in-time热备：通过replication将主hbase集群的数据备份到备hbase集群冷备：对用户的一些表定期的进行snapshot，通过MR任务把snapshot拷贝到一个异构的其他存储服务中（如S3）...

2019-07-07 20:23:32 573

说明它利用列格式，支持数据压缩和基于列的编码，从而实现高效的OLAP查询。这使用户能够通过使用弹性计算资源来代替专用服务器来实现成本节约。列存储，支持数据压缩和基于列的编码，实现高效的OLAP查询GeoMesa FSDS（ FileSystem data store）可以运行在任何分布式或本地文件系统之上，包括Amazon 3、Hadoop HDFS、谷歌FileStorage和Azure ...

2019-06-24 16:43:41 1014

原创 GeoMesa HBase其他

Hbase数据压缩在创建新的SimpleFeatureType时，可以对数据进行压缩。有效的压缩类型有snappy、lzo、gz、bzip2、lz4或zstd。SimpleFeatureType sft = ....;sft.getUserData().put("geomesa.table.compression.enabled", "true");sft.getUserData().pu...

2019-06-24 10:51:11 418

原创 GeoMesa Hbase命令行工具

Hbase可以使用共有的其他命令，以下为Hbase特有的命令：bulk-ingest批量摄取获取数据并写入到hfile（Hbase是以HFILE的形式存储的），适合批量加载到集群中。写入脱机hfile而不是直接写入正在运行的集群可以减少集群上的负载，并避免昂贵的数据压缩。批量摄取必须作为map/reduce作业运行。因此，要确保输入文件存在于HDFS中。在运行批量摄取时，需要确保输入的数...

2019-06-24 10:32:40 808

原创 GeoMesa HBase DataStore创建方式

编程方式需要在ClassPath中加入hbase-site.xml这个配置文件也可以通过hbase.zookeepers这个参数来代替hbase-site.xml配置文件（不推荐）DataStore创建：Map<String, Serializable> parameters = new HashMap<>();parameters.put("hbase.cata...

2019-06-24 10:02:08 1175

原创 GeoMesa Hbase 配置

geomesa.hbase.config.paths添加hbase配置文件的路径，多个用逗号分隔geomesa.hbase.remote.filtering禁用远程过滤。远程过滤和协处理器可以加快查询速度，但是需要在HBase中安装定制jar。如果没有配置这些jar的话可以将该值设置为falsegeomesa.hbase.wal.durabilityhbase的WAL设置，当需要更高...

2019-06-24 09:28:58 607

原创 GeoMesa Hbase安装

hbase版本为1.3.x or 1.4.x.去github上下载二进制源码# download and unpackage the most recent distribution:$ wget "https://github.com/locationtech/geomesa/releases/download/geomesa_2.11-$VERSION/geomesa-hbase_2.1...

2019-06-23 19:33:20 651

原创 GeoMesa命令行工具---Schema 命令

create-schema参数描述-c, --catalog *用于保存schema元数据的catalog 表-s, --spec *要创建的SimpleFeatureType说明-f, --feature-name要创建的schema的名称–dtg要用于默认日期字段的属性注：--spec参数可以是以下任意一种:a.属性字符串，例如n*am...

2019-06-23 17:51:03 825

原创 GeoMesa命令行工具---摄取命令

delete-features：从schema中删除特定的features。参数描述-c, --catalog *包含schema元数据的catalog表-f, --feature-name *schema的名称-q, --cqlCQL过滤器用来选择要删除的featuresingest：ingest命令可以将多种格式的文件作为数据源，并将其转换为...

2019-06-23 17:45:02 853

原创 GeoMesa命令行工具---查询和导出命令

convertconvert命令用于直接将一种格式的数据转换成另一种格式。例如，它可以用于将CSV文件转换为GeoJSON。参数描述-f, --feature-nameschema名-s, --spec要创建的SimpleFeatureType的说明-C, --converter用于创建SimpleFeatures的转换器–converter-err...

2019-06-23 17:42:24 3552

原创 GeoMesa命令行工具---分析命令

stats-bounds显示或计算schema中属性的边界参数描述-c, --catalog *存放schema 元数据的catlog表-f, --feature-name *schema名-q, --cqlcql语句-a, --attributes指定需要计算边界的属性–no-cache不使用缓存进行统计默认情况下，将显示**预计算...

2019-06-23 17:36:10 643

原创 GeoMesa命令行工具----创建命令

创建Simple Feature Types一、可通过以下方式定义Simple Feature Types：1、已经存在classpath中的SimpleFeatureType 的名2、规定的字符串3、配置（不常用）4、包括规定的字符串或配置的文件的文件名（不常用）二、加载Classpath 中的Simple Feature Typesgeomesa会默认加载reference.co...

2019-06-23 17:33:58 389

原创 GeoSparkSQL Function

sparkSQL函数Geometry 创建1. st_box2DFromGeoHash：Geometry st_box2DFromGeoHash(String geohash, Int prec)st_geomFromGeoHash的别名2.st_geomFromGeoHash：Geometry st_geomFromGeoHash(String geohash, Int prec)...

2019-06-21 22:23:16 1803

原创 GeoSpark

GeoMesa SparkGeoMesa Spark最底层为geomesa-spark-jts模块geomesa-spark-core模块是spark core的扩展，支持支持geotools的Query，生成系列化好的simplefeature类型的rddgeomesa-spark-sql模块允许使用sql方式进行查询，会将sql语句转换为Query对象进行查询Spark JTSSpa...

2019-06-21 19:24:48 1290

原创 zookeeper连接类

package com.xwsoft.geomesa;import java.util.List;import java.util.concurrent.CountDownLatch;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache....

2019-06-21 14:33:32 123

原创 GeoMesa命令行工具---环境和状态命令

命令行工具一、环境和状态命令1.classpath：显示运行时类路径。2.env：显示类路径上可用的SimpleFeatureTypes和GeoMesa转换器。参数描述-s, --sfts描述一个特定的SimpleFeatureType-c, --converters描述一个特定的转换器–describe-sfts描述所有SimpleFeature...

2019-06-18 17:25:54 384

原创 GreoMesa(6)

一、移动数据可以将simple features保存为Avro文件。$ geomesa-accumulo export ... -f mySft --format avro --gzip 6 -o myFeatures.avro要将数据重新导入到另一个环境中，可以使用ingest命令。$ geomesa-accumulo ingest ... -f mySft myFeatures.av...

2019-06-18 09:20:42 162

原创 GeoMesa(5)

一、 Feature 抽样如果有5 个features，抽取10％的话，则可能抽出1、2、3、4、5个（不少于10％）QueryHints.SAMPLING：值为0-1之间的小数（float）QueryHints.SAMPLE_BY：值为属性名import org.locationtech.geomesa.index.conf.QueryHints// returns 10% of f...

2019-06-17 22:20:59 728

原创 GeoMesa（4）

查询配置一、设置查询提示查询提示可以通过两种方式设置——编程方式或通过GeoServer请求。1.编程方式import org.geotools.data.Query;Query query = new Query("typeName");query.getHints().put(key, value);2.GeoServer请求通过修改URL中的查询参数（viewparams...

2019-06-17 18:13:01 330

原创 GeoMesa（3）

一、查询计划查询计划是将GeoTools的查询（Query ）转换为底层数据扫描和筛选的过程。几个步骤：1、CQL过滤器(如果有的话)被重写并优化，以实现快速评估2、CQL过滤器根据可用的索引进行拆分3、选择一个可用索引来执行查询4、逻辑查询计划由核心的GeoMesa索引代码创建5、为特定的后端数据库创建物理查询计划在GeoMesa中，逻辑查询计划通常由一个“主”CQL过滤器(用于确...

2019-06-17 17:13:06 610

原创 GeoMesa（2）

配置项一、geomesa.audit.provider.impl — 指定查询审核的全限定类名通过将geomesa.query.audit设置为true来在创建DataStore时来启用查询审核二、geomesa.convert.config.urls – 指定转换器的地址，多个之间使用逗号分隔三、geomesa.convert.scripts.path – 向classpath添加文件，...

2019-06-17 16:17:05 848

原创 GeoMesa（1）

一、创建SimpleFeatureTypes方式import org.locationtech.geomesa.utils.geotools.SimpleFeatureTypesSimpleFeatureTypes.createType("example", "name:String,dtg:Date,*geom:Point:srid=4326")二、支持的数据类型最后一列为是否可以...

2019-06-16 13:35:09 1754 1

原创算法

1、冒泡排序public static void maopao(int[] arr){ for(int i = 0;i<arr.length;i++){ for (int j = i;j<arr.length;j++){ if(arr[i] > arr[j]){ i...

2019-05-08 09:48:21 99

原创聚类分析

一、k-mean1.随机选取k个点作为初始聚类中心2.计算各个点到各个聚类中心的距离，将点分配给到聚类中心距离最小的类中3.求出均值作为各个类的聚类中心4.循环2、3步骤直到聚类中心不再变化二、k-mean++1、随机选择一个点作为聚类中心2、计算各个点到聚类中心的距离3、选择距离最大的点作为一个新的聚类中心4、直到选出k个聚类中心...

2019-04-09 16:32:28 171

原创 hbase读写流程

一、写流程1、Client先访问zookeeper，找到meta表的数据2、根据meta表的数据找到写入数据对应的region信息3、找到对应的regionserver4、把数据分别写到HLog和MemStore上一份5、MemStore达到一个阈值后则把数据刷成一个StoreFile文件。（若MemStore中的数据有丢失，则可以总HLog上恢复）6、当多个StoreFile文件达...

2019-04-09 15:19:43 118

原创 zookeeper

一、是什么分布式协调服务（半数以上节点存活就可正常使用）设计目标是将那些复杂且容易出错的分布式一致性服务封装起来，构成一个高效可靠的原语集，并以一系列简单易用的接口提供给用户使用分布式数据一致性解决方案，分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。读效率高写效率低（写时会...

2019-04-08 15:52:53 117

原创协同过滤

一、形式1、基于用户的协同过滤你喜欢的东西跟你相似的人也有肯能喜欢例：用户A喜欢商品a、b、c用户B喜欢a、b、c、d则可以将d推荐给A2、基于商品的协同过滤跟你喜欢的物品类似的物品你也有可能喜欢例：用户A喜欢商品a，若商品b和商品a比较类似，则可以将b推荐给A...

2019-04-08 14:49:15 116

原创 hive合并小文件

一、产生小文件的原因1、hive分区可能会产生小文件2、reduce过多会产生过多的结果小文件3、其他二、map端的输入合并sethive.input.format=org.apache.Hadoop.hive.ql.io.CombineHiveInputFormat三、输出端的合并配置解释set hive.merge.mapfiles=truemap only...

2019-04-07 21:32:24 608

原创 redis

一、数据类型1、String字符串（可以包含任何数据）：格式: set key value2、Hash（哈希，适合存储对象）格式: hmset name key1 value1 key2 value23、List（列表，字符串列表，按插入顺序排序）格式:左边插入：lpush name value右边插入：rpush name value删除：lrem name ind...

2019-04-06 16:29:13 133

原创 spark-submit参数

参数名参数说明–master如spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local–deploy-modeClient或者master，默认是client–class应用程序的主类–name应用程序的名称–jars逗号分隔的本地jar包，包含在d...

2019-04-06 10:43:18 128

原创 kafka

一、是什么：1、一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，2、最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等。二、特点1、高吞吐量、低延迟：每秒可以处理几十万条消息；2、...

2019-03-30 15:37:14 123

原创 flume基础

一、基本特点flume是一个分布式、高可用的海量日志收集、聚合、传输系统。二、可靠性：当节点出现故障时，日志能够被传送到其他节点上而不会丢失。三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。Store on failure（当数据接收方crash时，将数据写到本地，待...

2019-03-29 17:55:00 207

原创 yarn

包括三个部分：1、ResourceManager：负责全局的资源管理与任务调度。2、NodeManager：负责向ResourceManager汇报当前Node的状态。3、ApplicationMaster：负责申请任务所需要的资源，监控单个任务的运行状态，并且任务失败时重新申请资源过程：1、用户提交job到yarn，其中包括ApplicationMaster；2、Applicatio...

2019-03-27 19:26:47 103

原创 spark运行过程

1、构建spark application运行环境，创建sparkContext对象，SparkContext对象向资源管理器申请运行excuter的资源；2、资源管理器分配运行excuter的资源，并且excuter与资源管理器保持心跳。3、sparkContext构建DAG图，通过DAGScheduler进行Stage划分，并且将stage发送给TaskScheduler4、TaskSc...

2019-03-27 18:56:15 135

原创 rdd

rdd弹性分布式数据集是一个不可变、可分区、可并行计算的集合可以缓存在内存中并进行重用，提高效率rdd之间可以进行转换，可以储存任意数据类型五大特征RDD是一个由多个partition组成的的集合；RDD的每个partition上面都会有函数；RDD会记录它的依赖；如果是KV类型的rdd，则可以纯涤一个自定义的partitioner进行重分区最优的位置去计算，也就是数据的本地性...

2019-03-27 17:39:35 651

原创 java（1）

1、既然Java反射可以访问和修改私有成员变量，那封装成private还有什么意义private不是要表达“安全性”意思，而是一种oop的封装理念，是一个约定，隐含着如果你遵循这个约定，可以保证不出问题，否则的话后果自负。2、java类初始化顺序单类：静态变量 > 静态初始块 > 成员变量 > 非静态初始块 > 构造器继承类：父类静态变量 > 父类静态初始...

2019-03-23 16:39:39 72

原创 HBase架构

一、查询方式：1、根据单个rowkey查询；2、根据rowkey范围查询；3、全表扫描。注：通过 rowkey+列族+列+时间戳来唯一确定一个单元格。二、物理储存模型table在行方向上被分割为多个HRegion，每个HRegion分配在一个HRegionServer上；每个HRegion由一个或多个Store组成；每个Store由一个MemStore和0到多个StoreFile...

2019-03-23 10:07:12 108

空空如也

空空如也