2020年04月_知然xu

04月 03月 01月

原创 Spark教程（三）—— 安装与使用

Spark可以独立安装使用，也可以和Hadoop一起安装使用。本教程中，我们采用和Hadoop一起安装使用，这样，就可以让Spark使用HDFS存取数据。需要说明的是，当安装好Spark以后，里面就自带了scala环境，不需要额外安装scala，因此，“Spark安装”这个部分的教程，假设读者的计算机上，没有安装Scala，也没有安装Java（当然了，如果已经安装Java和Scal...

2020-04-19 11:44:49 1301

原创 Spark教程（二）—— RDD运行原理

一. RDD设计背景程序运行阶段会涉及很多迭代算法, 这些场景的共同之处是, 不同计算阶段会重用中间结果, 即一个阶段的输出作为下一个阶段的输入. MapReduce在处理这种情况的时候更多的是把中间结果写入到HDFS中, 这种操作会带来大量的数据复制, 磁盘IO和序列化开销. RDD就是为了满足这种需求出现的, 它提供一个抽象的数据架构, 不必担心底层数据的分布式特性, 只需...

2020-04-19 09:36:33 1707

原创 EleasticSearch综述(二)

1. 简单Demo索引(1) 创建一个名字为demo的索引PUT http://localhost:9200/demoES响应{ "acknowledged": true, "shards_acknowledged": true, "index": "demo"}(2) 创建索引时, 指定主分片和分片副本的数量PUT http://loc...

2020-04-16 09:12:08 469

原创 EleasticSearch综述(一)

Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎，它的底层是开源库Apache Lucene。EleasticSearch的特点如下:一个分布式的实时文档存储，每个字段可以被索引与搜索一个分布式实时分析搜索引擎能胜任上百个服务节点的扩展，并支持 PB 级别的结构化或者非结构化数据由于Elasticsearch的功能...

2020-04-15 22:17:01 1296

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人