机器学习
文章平均质量分 78
走在大数据的边缘
这个作者很懒,什么都没留下…
展开
-
IKAnalyzer介绍及使用
**IKAnalyzer介绍 使用** 一、 IK介绍 为什么要分词呢,刚开始介绍的时候介绍过,我们要提取语句的特征值,进行向量计算。所有我们要用开源分词工具把语句中的关键词提取出来。至于详细的介绍我们后期进行项目实战的时候会一一介绍,目前我们只需要学会用这个工具,为之后的项目实战打下基础。 IK Analyzer是什么呢,就是我们需要的这个工具,是基于java开发的轻量级的中文分词工具原创 2017-08-17 15:00:29 · 4506 阅读 · 0 评论 -
Spark以及生态圈介绍
**Spark以及生态圈介绍** 一、 Spark简介 官方解释: Apache Spark™ is a fast and general engine for large-scale data processing. 打开官网网站解释一下。 二、 Spark关键词 三、 Spark生态系统 • Spark Core:包含Spark的基本功能;尤其是定义原创 2017-08-17 15:06:17 · 899 阅读 · 0 评论 -
Spark运行模式
**Spark运行模式** 一、 Spark运行架构介绍 术语定义: Application:指的是用户编写的Spark应用程序,包含了一个Driver功能的代码和分布在集群中多节点上运行的Executor代码。 Driver:Spark中的Driver就是运行Application的main()函数,并且创建SparkContext。SparkContext为Spark准备运行环境,原创 2017-08-17 15:12:38 · 496 阅读 · 0 评论 -
Spark编程模型RDD设计以及运行原理
**Spark编程模型RDD设计以及运行原理** 一、 RDD介绍 RDD:弹性分布式数据集,是一个分区的只读记录的集合。也可以这样理解,是一个提供了许多操作接口的数据集合。它还包括容错、数据集内的数据可以并行处理等。 二、 RDD操作类型 RDD的操作类型分为两类,转换(transformations)和行动(action),转换是根据原有的RDD创建一个新的RDD,行动是对R原创 2017-08-17 15:16:00 · 475 阅读 · 0 评论