scala
风中的大数据
这个作者很懒,什么都没留下…
展开
-
大数据scala面试题汇总
大数据scala面试题汇总原创 2022-04-25 16:30:00 · 4171 阅读 · 0 评论 -
「每日一道大数据面试题系列」介绍一下Scala中的闭包函数
大数据面试题介绍一下Scala中的闭包函数原创 2022-04-24 21:50:20 · 430 阅读 · 0 评论 -
「每日一道大数据面试题系列」介绍一下Scala语言中的隐式转换
大数据面试题介绍一下Scala语言中的隐式转换原创 2022-04-24 21:35:32 · 89 阅读 · 0 评论 -
Spark MLlib基于KMeans算法的聚类分析,scala代码
package com.xtf.demo.mllibimport com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionaryimport com.hankcs.hanlp.tokenizer.StandardTokenizerimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.Word2Vecimport org.apache.spark..原创 2021-01-12 16:50:51 · 692 阅读 · 0 评论 -
spark mllib机器学习流水线方式分类模型训练及预测附scala代码
package com.xtf.demo.mllibimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, IndexToString, StringIndexer, StringIndexerModel}import org.apache.spark.sql.{Row,.原创 2020-09-06 20:37:28 · 765 阅读 · 0 评论 -
scala实现布隆过滤器代码
布隆过滤器代码原创 2021-01-12 16:53:18 · 261 阅读 · 0 评论 -
文本汉子字母数字单独分词scala实现
最近做文本去重,使用simhash算法,首先需要对文本进行分词或者分字,两者使用情况稍有偏差,分词我们使用的时基于hanlp的分词算法,本文介绍第二种文本分字算法,连续的英文字母或者数字分为一个字。scala代码如下:package com.test.xtfimport scala.collection.mutable.ListBufferimport scala.util.c...原创 2021-01-12 16:52:26 · 268 阅读 · 0 评论