Scala
等木鱼的猫
哈哈哈
展开
-
Hbase小结
(一).Hbase基本介绍1.hbase是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统2.hbase特点: HBase中的存储一切皆是字节 HBase的RowKey会按照字节顺序排序,并且添加索引 HBase会按照row数量自动切割成Region,保持负载均衡与冗余3.hbase存储结构: RowKey:是Byte array,是表中每...原创 2020-04-04 15:47:44 · 552 阅读 · 0 评论 -
Rdd/DataFrame/DataSet 小结
(1).三者区别和联系DataFrame:DataFrame是以rdd为基础的分布式数据集,类似于传统数据库的二维表格,带有schema的元数据,即相当于二维表格的每一列都有列名和类型,基于次对于dataFrame的操作更有正对性,优点:引入了Schema,用于管理数据类型 Datafram中的每一行数据类型都是row,所以在序列化和反序列化的时候就不需要对数据类型操作;Datafra...原创 2020-04-04 15:45:40 · 193 阅读 · 0 评论 -
Spark文本特征提取(TF-IDF/Word2Vec/CountVectorizer)
import org.apacheimport org.apache.sparkimport org.apache.spark.ml.feature._import org.apache.spark.mllib.linalg._import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.linalg...原创 2020-04-04 15:44:29 · 352 阅读 · 0 评论 -
scala 余弦相似度
import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutableimport scala.collection.mutable.ListBufferobject test423_cosvec { def ma...原创 2020-04-04 15:42:09 · 718 阅读 · 0 评论 -
scala的json
val str1="{\"id\":\"001\",\"value\":[{\"fruitName\":\"apple\",\"weight\":\"1\"},{\"fruitName\":\"orange\",\"weight\":\"2\"},{\"fruitName\":\"strawberry\",\"weight\":\"3\"}]}"val jsonobj=new JSONO...原创 2020-04-04 15:40:47 · 224 阅读 · 0 评论 -
scala常用方法总结
//判断string 是否是数值def isNotIntType(str: String): Boolean = {val pattern = "^(\\d+)$".rstr match {case pattern(_*) => falsecase _ => true}}//判断string是否是时间 yyyyMMdd HH:mm:ssdef isNotTime...原创 2020-04-04 15:39:32 · 294 阅读 · 0 评论 -
scala的IO操作
1.scala主要用java的中的I/O类(java.io.File)public static final String pathSeparator 常量 表示路径的分隔符(windows:‘;’)public static final String separator 常量 表示路径分隔符(windows:‘\’)public File(String pathname) 构造 创建...原创 2020-04-04 15:21:20 · 712 阅读 · 0 评论 -
Spark(二)RDD
import org.apache.spark.{SparkConf, SparkContext}object test { def main(args: Array[String]): Unit = { //SparkConf val conf=new SparkConf().setMaster("local").setAppName("test") //Sp...原创 2018-08-06 16:13:09 · 156 阅读 · 0 评论 -
Scala-List
//列表拼接 List("a","b"):::List("c","d") //List(a,b,c,d) List("a","b")++List("c","d") //List(a,b,c,d) List("a","b")++:List("c","d原创 2018-07-25 15:58:54 · 340 阅读 · 0 评论 -
scala-数组
1.Arrayval arr1=Array(1,2,3) //val arr1=Array[Int](1,2,3)val arr2=Array("a","b","c") //val arr2=Array[String]("a","b","c") //遍历打印 for(ele<-arr1){ print(ele+",")} // 1,2原创 2018-07-24 20:25:57 · 309 阅读 · 0 评论