![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
乔尼娜沙德星
这个作者很懒,什么都没留下…
展开
-
sparkStreaming 实时窗口分析
实时就是统计分析 比如:饿了么中午和晚上,区域订单数目统计需求:最近半小时的各个区域订单状态11:0010:30~11:00 半小时时间内,订单状态,还有多少订单没有配送,多的话调人11:1010:40~11:00 半小时时间内,订单状态DStream窗口统计分析指定窗口的大小,也就是时间窗口 时间间隔模拟数据:订单号 ...原创 2019-08-11 22:24:37 · 454 阅读 · 0 评论 -
SparkStreaming的介绍及处理数据流程
介绍:流式数据处理(streamprocessing)要处理的数据就像流水一样,源源不断的产生数据,需要实时进行处理对SparkCore的高级API的封装,将流式的数据切分为小的批次batch(按照时间间隔)的数据,然后使用SparkCore进行处理在大数据技术框架中,对于流式数据的实时数据分析处理方案:一条一条的处理 来一条数据就处理一条数据 ...原创 2019-08-10 21:53:54 · 696 阅读 · 0 评论 -
机器学习的种类及其典型的任务
1.监督学习(1)定义:指有求知欲的学生从老师那里获取知识、信息,老师提供对错指示、告知最终答案的学习过程。在机器学习中,计算机 = 学生,周围的环境 = 老师。(2)最终目标:根据在学习过程中获得的经验技能,对没学习过的问题也可以做出正确解答,使计算机获得这种泛化能力。(3)应用:手写文字识别、声音处理、图像处理、垃圾邮件分类与拦截、网页检索、基因诊断、股票预测等。(...转载 2019-08-09 21:58:37 · 1848 阅读 · 0 评论 -
ETL日志数据到HBASE表中,程序代码优化点
(1)创建表的时候 设置表的数据压缩 //设置数据压缩 family.setCompressionType(Compression.Algorithm.SNAPPY) 创建预分区 admin.createTable(desc,Array( Bytes.toBytes("145057118"),Bytes.toByt...原创 2019-08-06 21:44:17 · 259 阅读 · 0 评论 -
Spark SQL UDF(日期转换)
// 利用SimpleDateFormat类 def getDayOfWeek = (date: String) => (new SimpleDateFormat("u")).format(new SimpleDateFormat("yyyy-MM-dd").parse(date)) val weekDays: Array[String] = Array("星期日"...原创 2019-08-08 23:20:21 · 1384 阅读 · 0 评论 -
SparkCore(MapReduce)与HBase表(HFile)的数据进行交互
-1、写入数据 将结果RDD保存到HBase表中 TableOutputFormat RDD的数据变成Key-value key:rowkey, ImmutableBytesWritable value:Put def saveAsNew...原创 2019-08-05 21:34:38 · 314 阅读 · 0 评论 -
sparksql 自定义schema
自定义schema信息case class StructType(fields: Array[StructField])case class StructField(name: String,dataType: DataType,nullable: Boolean = true,metadata: Metadata = Metadata...原创 2019-08-07 21:58:55 · 1439 阅读 · 0 评论 -
spark standalone
介绍spark框架自身带的 分布式集群资源管理和任务调度框架,类似于HadoopYarn框架 Standalone Yarn Master ResourceManager ...原创 2019-08-02 21:51:11 · 165 阅读 · 0 评论 -
spark知识整理
原创 2019-08-12 22:44:31 · 178 阅读 · 0 评论