大数据篇
hongduna
这个作者很懒,什么都没留下…
展开
-
ES中使用IK分词
我愿意把把它放置在大数据篇章中。它应属于数据清洗层,将文章或文本的内容进行分词,然后将由NLP等AI处理引擎进行处理。原创 2018-08-08 09:31:41 · 646 阅读 · 0 评论 -
Spark速成之2:运行架构
本节首先介绍Spark的基本概念和架构设计方法,然后介绍Spark运行基本流程。 1.基本概念 在具体讲解Spark运行架构之前,需要先了解几个重要的概念: 1、RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型; 2、DAG:是Directed Acyclic...转载 2018-09-11 18:19:33 · 300 阅读 · 0 评论 -
MongoDB之1:1.NoSQL 简介
NoSQL(NoSQL = Not Only SQL ),意即"不仅仅是SQL"。 在现代的计算系统上每天网络上都会产生庞大的数据量。 这些数据有很大一部分是由关系数据库管理系统(RDBMS)来处理。 1970年 E.F.Codd's提出的关系模型的论文 "A relational model of data for large shared data banks",这使...转载 2018-09-14 09:33:40 · 193 阅读 · 0 评论