- 博客(4)
- 收藏
- 关注
原创 Spark教程(三)—— 安装与使用
Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用,这样,就可以让Spark使用HDFS存取数据。需要说明的是,当安装好Spark以后,里面就自带了scala环境,不需要额外安装scala,因此,“Spark安装”这个部分的教程,假设读者的计算机上,没有安装Scala,也没有安装Java(当然了,如果已经安装Java和Scal...
2020-04-19 11:44:49 1301
原创 Spark教程(二)—— RDD运行原理
一. RDD设计背景 程序运行阶段会涉及很多迭代算法, 这些场景的共同之处是, 不同计算阶段会重用中间结果, 即一个阶段的输出作为下一个阶段的输入. MapReduce在处理这种情况的时候更多的是把中间结果写入到HDFS中, 这种操作会带来大量的数据复制, 磁盘IO和序列化开销. RDD就是为了满足这种需求出现的, 它提供一个抽象的数据架构, 不必担心底层数据的分布式特性, 只需...
2020-04-19 09:36:33 1707
原创 EleasticSearch综述(二)
1. 简单Demo索引(1) 创建一个名字为demo的索引PUT http://localhost:9200/demoES响应{ "acknowledged": true, "shards_acknowledged": true, "index": "demo"}(2) 创建索引时, 指定主分片和分片副本的数量PUT http://loc...
2020-04-16 09:12:08 469
原创 EleasticSearch综述(一)
Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎,它的底层是开源库Apache Lucene。EleasticSearch的特点如下:一个分布式的实时文档存储,每个字段可以被索引与搜索 一个分布式实时分析搜索引擎 能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据 由于Elasticsearch的功能...
2020-04-15 22:17:01 1296
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人