scala
不埋雷的探长
深耕BigData技术,专注于大数据技术领域的知识分享。CSDN认证博客专家,目前就职于腾讯,内推可私聊~ 热爱软件,喜欢编程的阳光小伙子~ 千万千万不要放弃学习,千万千万要搞好人际关际,共勉~
展开
-
机器学习 —— 基于Spark ML 的文本分类实现语境分类【实用】
前提了解,为什么会有文本分类? 什么是 Word Embedding ? 在说明 Word2vec 之前,需要先解释一下 Word Embedding。 它就是将“不可计算”“非结构化”的词转化为“可计算”“结构化”的向量。将现实问题转化为数学问题只是第一步,后面还需要求解这个数学问题。所以 Word Embedding 的模型本身并不重要,重要的是生成出来的结果——词向量。因为在后续的任务中会直接用到这个词向量。 什么是 Word2vec ? Word2vec 是 Word Embedding 的原创 2020-07-27 10:21:16 · 504 阅读 · 0 评论 -
实战示例:分享大数据Spark常用操作示例,含有scala版、对应的java8 lambda版本
Spark开发语言选择说明: 在生产环境中,每家公司会根据自身的技术储备情况选择对应的开发语言进行Spark应用开发。拿我们公司的例子,因为我们主要是熟悉java,所以更适合选择java开发。目前,市面上如果选用java进行Spark应用开发,大部分会优先选用java8 lambda表达式进行开发;如果团队中都是新成员,或者大部分人都熟悉scala,则可以选用scala进行开发。...原创 2020-03-10 22:23:32 · 445 阅读 · 0 评论 -
Scala常用函数式编程之map、foreach、flatten、flatmap、filter、zip、zipWithIndex
1、map map方法可以将某个函数应用到集合中的每个元素并产出其结果的集合,比如 val names=List("a","b","c") 可以用 names.map(_.toUpperCase) 得到List("A","B","C") 2、foreach foreach和map相似,只不过它没有返回值,foreach只要是为了对参数进行作用。 比如 names.f原创 2017-08-20 21:00:03 · 650 阅读 · 0 评论 -
实例验证spark开发中的map与flatmap的区别
经常在map与flatmap中混淆,应该很多开发人员也会犯这个错误。 不多说,上实例验证一下: 在spark集群中使用spark-shell对hdfs文件进行map、flatmap操作: map操作及结果: flatmap操作及结果: 总结: map操作结果:Array[Array[String]] = Array(Arr...原创 2018-10-27 23:24:08 · 1100 阅读 · 0 评论