当前搜索:

[Shell]特殊变量$0$#$*$@$?和命令行参数

1. 参数变量特殊变量列表变量含义$0当前脚本的文件名$n传递给脚本或函数的参数。n 是一个数字,表示第几个参数。例如,第一个参数是$1,第二个参数是$2。$#传递给脚本或函数的参数个数。$*传递给脚本或函数的所有参数。$@传递给脚本或函数的所有参数。被双引号(" ")包含时,与 $* 稍有不同,下面将会讲到。$?上个命令的退出状态,或函数的返回值。$$当前Shell进程ID。对于 Shell 脚...
阅读(266) 评论(0)

[Spark]Spark RDD 指南四 RDD操作

RDD支持两种类型的操作:转移(transformations):从现有数据集创建一个新数据集 动作(actions):在数据集上进行计算后将值返回给驱动程序例如,map是一个转移操作,传递给每个数据集元素一个函数并返回一个新RDD表示返回结果。 另一方面,reduce是一个动作操作,使用一些函数聚合RDD的所有元素并将最终结果返回给驱动程序(尽管还有一个并行的reduceByKey返回分布式数据...
阅读(356) 评论(0)

[Spark]Spark RDD 指南三 弹性分布式数据集(RDD)

Spark的核心概念是弹性分布式数据集(RDD),RDD是一个可容错、可并行操作的分布式元素集合。有两种方法可以创建RDD对象:在驱动程序中并行化操作集合对象来创建RDD从外部存储系统中引用数据集(如:共享文件系统、HDFS、HBase或者其他Hadoop支持的数据源)。1. 并行化集合通过在驱动程序中的现有集合上调用JavaSparkContext的parallelize方法创建并行化集合(Pa...
阅读(408) 评论(0)

[Spark]Spark RDD 指南二 初始化

1. 初始化Spark程序必须做的第一件事是创建一个JavaSparkContext对象(Scala和Python中是SparkContext对象),它告诉Spark如何访问集群。 要创建SparkContext,您首先需要构建一个包含有关应用程序信息的SparkConf对象。Java版本:private static String appName = "JavaWordCountDemo"; p...
阅读(666) 评论(0)

[Spark]Spark RDD 指南一 引入Spark

1. Java版Spark 2.1.1适用于Java 7及更高版本。 如果您使用的是Java 8,则Spark支持使用lambda表达式来简洁地编写函数,否则可以使用org.apache.spark.api.java.function包中的类。请注意,从Spark 2.0.0开始,不支持Java 7,并且可能会在Spark 2.2.0中删除(Note that support for Java 7...
阅读(447) 评论(0)

[Spark]那些年我们遇到的Spark的坑

1. java.lang.NoClassDefFoundError: org/apache/spark/Logging1.1 问题Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging at java.lang.ClassLoader.defineClass1(Native Me...
阅读(1540) 评论(0)

[Hadoop]Hadoop本地调试

1. Maven依赖dependency> groupId>org.apache.hadoopgroupId> artifactId>hadoop-clientartifactId> version>2.7.2version> dependency> dependency> groupId>junitgroupId> artifactId>junitart...
阅读(431) 评论(0)

[Zeppelin]设置访问登录权限

1. 概述我们在浏览器中输入 http://localhost:8080/ 进入Zeppelin的主页,不需要用任何的验证就可以进入主页面:换句话说,任何人在浏览器输入上面地址(本机),都可以访问Zeppelin里的所有笔记. 在上图中我们也可以看到我们的登陆用户是anonymous.2. 修改匿名访问Zeppelin启动默认是匿名(anonymous)模式登录的.如果设置访问登录权限,需要设置c...
阅读(1098) 评论(0)

[Zeppelin]Zeppelin安装与初体验

1.安装1.1 下载点击进入下载页面备注下载页面会提供两种二进制包:zeppelin-0.7.1-bin-netinst.tgz 默认只会提供Spark的Interpreterzeppelin-0.7.1-bin-all.tgz 会提供各种各样的Interpreter(MySQL,ElasticSearch等等)所以说要根据你的使用场景具体选择哪种二进制包.1.2 解压缩xiaosi@yoona:...
阅读(1389) 评论(0)

[Redis]Redis指南一 安装与启动

在安装Redis前需要了解Redis的版本规则以选择最合适自己的版本,Redis约定次版本(即第一个小数点后的数字)为偶数的版本是稳定版本(如 2.4版本,2.6版本),奇数版本是非稳定版本(如2.5版本,2.7版本),推荐使用稳定版本进行开发和在生产环境中使用.1. 下载当前最新版本为3.2.9:官网下载:https://redis.io/中文官网下载:http://www.redis.cn/d...
阅读(280) 评论(0)

[Redis]Redis指南一 数据类型

1. 字符串1.1 SET与GETSET key value GET keyRedis中的字符串是一个字节序列。Redis中的字符串是二进制安全的,这意味着它们的长度不由任何特殊的终止字符决定。因此,可以在一个字符串中存储高达512兆字节的任何内容。127.0.0.1:6379> SET USER "yoona" OK 127.0.0.1:6379> GET USER "yoona"1.2 INC...
阅读(317) 评论(0)

[ElasticSearch2.x]原理之分布式搜索

这个要比基本的创建-读取-更新-删除(CRUD)请求要难一些。CRUD操作是处理的单个文档。这就意味着我们明确的知道集群中的哪个分片存储我们想要的文档。一个 CRUD 操作只对单个文档进行处理,文档有唯一的组合,由 _index, _type, 和 路由值 (默认是该文档的 _id )组成。 这表示我们确切的知道此文档在集群中哪个分片中。搜索请求是更复杂的执行模型,因为我们不知道哪些文档会与查询匹...
阅读(241) 评论(0)

[ElasticSearch]嵌套对象之嵌套类型

nested类型是一种特殊的对象object数据类型(specialised version of the object datatype ),允许对象数组彼此独立地进行索引和查询。1. 对象数组如何扁平化内部对象object字段的数组不能像我们所期望的那样工作。 Lucene没有内部对象的概念,所以Elasticsearch将对象层次结构扁平化为一个字段名称和值的简单列表。 例如,以下文件:cu...
阅读(1998) 评论(0)

[ElasticSearch2.x]嵌套对象

考虑到在Elasticsearch中创建,删除和更新的单个文档是原子操作的,因此在相同文档中存储紧密相关的实体是有意义的。 例如,我们可以在一个文档中存储一个订单和其所有的订单线(order lines),或者我们可以通过传递一组评论来将一篇博客文章及其所有评论存储在一起:PUT /my_index/blogpost/1 { "title": "Nest eggs", "body": "...
阅读(406) 评论(0)

[ElasticSearch]分析之Analysis(分析)

分析(analysis)是将文本(如任何电子邮件的正文)转换为添加到倒排索引中进行搜索的tokens或terms的过程。 分析由分析器analyzer执行,分析器可以是内置分析器或者每个索引定制的自定义分析器。1. 索引时分析(Index time analysis)例如在索引时,内置的英文分析器将会转换下面句子:"The QUICK brown foxes jumped over the laz...
阅读(662) 评论(0)

[ElasticSearch]Search之分页

之前的文章[ElasticSearch]搜索我们知道,我们的空搜索匹配到集群中的13个文档。 但是,命中数组中只有10个文档(文章只显示了2条数据,故意省略掉)。 我们如何查看其他文档呢?与SQL使用LIMIT关键字返回一个“页面”的结果数据相同,Elasticsearch接受from和size参数:size 表示应返回的结果数,默认为10from 表示应跳过的初始结果数,默认为0如果想每页显示五...
阅读(1245) 评论(0)

[ElasticSearch]搜索

1. 空搜索测试数据:https://gist.github.com/clintongormley/85792811.1 搜索最基本的搜索API是空搜索(empty search),它没有指定任何的查询条件,只返回集群索引中的所有文档:curl -XGET 'localhost:9200/_search?pretty'Java版本:SearchRequestBuilder searchReques...
阅读(736) 评论(0)

[ElasticSearch2.x]Filter之Cache

过滤器(Filter)的核心实际是采用一个bitset记录与过滤器匹配的文档。当Elasticsearch确定一个bitset可能会在将来被重用时,它将被直接缓存在内存中供以后使用。一旦缓存,这些bitset可以在使用相同查询的任何地方重复使用,而无需再次重新评估整个查询。这些缓存的bitset是非常“机智”的:它们是增量更新的。 在索引新文档时,只需要将那些新文档添加到现有的bitset中,而不...
阅读(354) 评论(0)

[ElasticSearch2.x]Filter之Filter原理

1. FilterBuilders废弃org.elasticsearch.index.queries.FilterBuilders从ElasticSearch2.0开始已被删除,作为查询和过滤器组合的一部分。 这些过滤器现在可以在QueryBuilders中使用具有相同名称的方法。所有可以接受FilterBuilder的方法现在也可以接受QueryBuilder。以前使用方式:FilterBuil...
阅读(734) 评论(0)

[ElasticSearch2.x]Queries vs Filters

1. 查询与过滤Elasticsearch 使用的查询语言(DSL) 拥有一套查询组件(queries),这些组件可以以无限组合的方式进行搭配(mixed and matched)。这套组件可以在以下两种上下文中使用:过滤上下文(filtering context)和查询上下文(query context)。当在过滤上下文(filtering context)中使用 时,该查询被设置成一个“不评分...
阅读(409) 评论(0)
816条 共41页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1379390次
    • 积分:21340
    • 等级:
    • 排名:第398名
    • 原创:623篇
    • 转载:133篇
    • 译文:60篇
    • 评论:182条
    博客专栏
    文章分类
    最新评论