Spark
appleyk
这个作者很懒,什么都没留下…
展开
-
基于电影知识图谱的智能问答系统(五) --Spark朴素贝叶斯分类器
一、Who is 贝叶斯 二、什么是贝叶斯分类器贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN由于涉及算法,比较抽象,想了解详情的请参考博文:分类算法之朴素贝叶斯分类(Naive Bayesian classification)如果上面你看完还是一时接受不了这个算法,那么,我就发挥一下,简明扼要形象的说一下我的理解假如辨别男人的特征是: 短头发,运动鞋,大鼻...原创 2018-05-17 11:57:00 · 38578 阅读 · 48 评论 -
基于电影知识图谱的智能问答系统(六) -- 问题训练样本集敲定
上一篇:基于电影知识图谱的智能问答系统(五) --Spark朴素贝叶斯分类器 在上一篇博文中,我们利用朴素贝叶斯分类器(Naive Bayes Model)简单玩了一个男女性别分类的demo,如果你细心的从头到尾跟了一遍demo并进行本机测试后,你会发现,其实分类器的工作原理很简单,总结一下,主要有五点:1、生成(或外部文件加载)训练集样本 【样本:LabelPoint类型,再细...原创 2018-05-21 10:00:26 · 32604 阅读 · 33 评论 -
Intellij IDEA 安装Scala插件 + 创建Scala项目(Hello World!)
一、IDEA 2018 Ultimate edition (旗舰破解版下载地址) 百度网盘地址:https://pan.baidu.com/s/1d9ArRH6adhDUGiJvRqnZMw 二、IDEA 推荐主题(Jar包)下载 百度网盘:https://pan.baidu.com/s/1QUSaD0UM3izEDMtB5...原创 2018-08-29 12:13:43 · 64669 阅读 · 2 评论 -
Java、Scala、Python ☞ 本地WordCount词频统计对比
需求:模拟MapReduce,对磁盘文件(N个)里面的单词进行词频统计(统计每个单词在文件中出现的次数)区别:计算采用本地模式(单线程),只是模拟Map和Reduce的联合过程,并不单独分离出两个任务(方法)目的:通过不同语言实现词频统计功能,并对比各自的风格 一、数据样例(Samples) 百度网盘:wordcount.rar 主...原创 2018-09-06 15:07:08 · 106097 阅读 · 2 评论 -
Spark -- RDD简单操作【统计文本中单行最大单词数】
一 、什么是RDD ? RDD在Spark【Scala语言】中,是一种数据结构【基于内存,可持久化】,就好比Java的ArrayList一样,可以进行各种的Action操作,比如Java中的List集合,可以进行get【获取元素】、add【增加元素】、remove【移除元素】等操作; 当然,Scala语言底层实现是基于JVM的,即Scala兼容J...原创 2018-10-18 11:16:19 · 107568 阅读 · 0 评论 -
Pari RDD --- 转换操作函数☞reduceByKey
一、再说 RDD Spark中的RDD虽然统一叫做弹性分布式数据集,但是,RDD的创建方式却是多种多样的,且RDD的数据类型也是有区分的,且RDD的操作分为两种,一种是转换(Transformation)操作,一种是执行(Action)操作 这里的RDD的操作,我们具体点就是一个完整的Spark计算过程(Driver节点提交任务,多个Worke...原创 2018-10-23 13:09:04 · 106761 阅读 · 0 评论