Spark
文章平均质量分 82
DT鸽子
这个作者很懒,什么都没留下…
展开
-
判断数组,集合元素是否唯一
1.将集合或数组转换成set val uniq = t.toSet2. 判断if(t.size != uniq.size){print("元素不唯一")}else{print("元素唯一")}原创 2016-09-17 21:15:22 · 1474 阅读 · 0 评论 -
spark-sql结合hive
重要########################################alter database hive character set latin1;ALTER TABLE hive.* DEFAULT CHARACTER SET latin1;########################################1.安装hiveCREATE USER 'h...转载 2018-10-31 11:24:18 · 142 阅读 · 0 评论 -
hadoop编译和spark编译
编译hadoop1.下载maven(apache-maven-3.3.3-bin.tar.gz)(3.0.5以上版本)http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz2.安装maventar -zxvf apache-maven-3.3.3-bin.tar....转载 2018-10-31 18:31:33 · 446 阅读 · 0 评论 -
Spark-Spark SQL and DataFrame
课程目标 掌握Spark SQL的原理 掌握DataFrame数据结构和使用方式 熟练使用Spark SQL完成计算任务 Spark SQL Spark SQL概述 什么是Spark SQL 2 sparkSQL优点我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRed...原创 2018-10-30 11:20:20 · 227 阅读 · 0 评论 -
Spark Streaming整合flume实战
参考:http://spark.apache.org/docs/1.6.3/streaming-flume-integration.htmlhttps://blog.csdn.net/weixin_41615494/article/details/79521120flume作为日志实时采集的框架,可以与SparkStreaming实时处理框进行对接,flume实时产生数据,spar...原创 2018-12-12 11:23:38 · 134 阅读 · 0 评论 -
SparkSQL大数据实战:揭开Join的神秘面纱
https://www.cnblogs.com/163yun/archive/2018/06/01/9121530.html本文来自网易云社区。Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。Join背景介绍Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可...转载 2019-04-07 17:47:06 · 215 阅读 · 0 评论 -
Spark---WC---Spark从外部读取数据之textFile
Ref:https://blog.csdn.net/legotime/article/details/51871724#测试数据hello sparkhello hadoopcsdn hadoopcsdn csdnhello world结果(spark,1)(hadoop,2)(csdn,3)(hello,3)(world,1) import or...转载 2018-10-25 18:07:54 · 3003 阅读 · 0 评论 -
Spark项目练习(计算用户停留时间最长的两个小区)
https://blog.csdn.net/sonicgyq_gyq/article/details/79196895其中bs_log文件夹数据格式为(手机号,时间戳,基站ID,连接状态(“1”为连接,“0”为断开))lac_info.txt 文件数据格式为(基站ID,经度,纬度,信号辐射类型)程序思路:1, 先根据"手机号,基站ID"构成一个元祖,做为唯一标识, 和时间戳构成新的...转载 2018-10-09 17:21:56 · 866 阅读 · 0 评论 -
Zookeeper + Hadoop2.6 集群HA + spark1.6完整搭建与所有参数解析
原文章地址:http://www.cnblogs.com/yangsy0915/p/5347849.html废话就不多说了,直接开始啦~安装环境变量:使用linx下的解压软件,解压找到里面的install 或者 ls 运行这个进行安装yum install gcc yum install gcc-c++ 安装make,这个是自动编译源码的工具yum inst转载 2016-09-18 16:51:28 · 1495 阅读 · 0 评论 -
Spark MLlib实现的中文文本分类–Native Bayes
原网址:http://www.open-open.com/lib/view/open1453539595620.htmlSpark MLlib实现的中文文本分类–Native Bayes 2016-01-23 17:00:41 发布您的评价: 0.0 0收藏来自: ht转载 2016-11-14 14:36:32 · 947 阅读 · 0 评论 -
Spark 二次排序
Spark 二次排序废话不多说直接上代码定义二次排序的keyclass SecondSortKey(val first: Int, val second: Int) extends Ordered[SecondSortKey] with Serializable { def compare(that: SecondSortKey): Int = { if(this...原创 2018-09-26 18:11:13 · 278 阅读 · 0 评论 -
Spark sortBy
object TestSparkSortBy {val testData = Seq( "1,111,68,69,90,1班,经济系 ", "2,112,73,80,96,1班,经济系 ", "3,113,90,74,75,1班,经济系 ", "4,114,89,94,93,1班,经济系 ", "原创 2018-09-26 18:47:58 · 1141 阅读 · 0 评论 -
RDD算子
Ref:http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html map是对每个元素操作,mapPartitions是对其中的每个partition操作 mapPartitionsWithIndex : 把每个partition中的分区号和对应的值拿出来, 看源码val func = (ind...原创 2018-10-09 15:21:12 · 267 阅读 · 0 评论