- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 Spark Streaming Mllib 在线实时机器学习识别结果和记录Id一 一对应解决方案
毕业设计遇到的一个场景,场景如下: 基于Spark Streaming对DStream底层的RDD中的每一个数据进行在线机器学习预测,由于每一个数据都是一个用户的行为数据,需要对该用户的数据进行模型预测并将结果实时返回给用户。由于识别时候用户Id不是特征属性需要去掉,不包含在矩阵中。但是识别出来的每一个结果又需要将其和该用户Id对应起来返回给用户,这一场景需要将用户Id和结果准确绑定在一起
2017-09-19 18:15:21 2353 1
原创 Flink WaterMark机制白话分析
最近遇见一个流处理的数据严重迟到乱序的场景,基于Saprk Streaming开发的统计用户页面停留时间。使用的思想是:迟到数据的时间补偿机制。由于Spark不支持乱序的支持,所以自行实现了一个容器保存一定量的历史数据,最后对迟到的数据插到历史容器中,对插入数据的位置进行局部计算求补偿时间最后添加到累计停留时间中,大概这个思想。有时间会分享出来。这个场景要我想起了Flink对乱序支持的机制,因为又
2017-09-14 09:46:11 7311 4
原创 Spark 数据全局排序实现以及RangePartitioner的使用示例
使用Java 随机数类随机生成0到Integer.MAX_VALUE之间的10GB文件,然后使用Spark计算框架进行全局排序。实现思路:可以局部排序(局部数据是全局数据的某一个范围)最后合并到全同一个文件,保证全局有序,这样可以设置一个reduce任务实现,但是对于更大量的数据容易出现OOM。如果不合并到同一个文件的话,可以将每一个分区有序的数据输出到磁盘。最后借鉴Kafka的数据管理方式建
2017-09-13 17:20:35 6244
原创 Session、Cookie 记住登录状态的实现
Cookie的机制Cookie是浏览器(User Agent)访问一些网站后,这些网站存放在客户端的一组数据,用于使网站等跟踪用户,实现用户自定义功能。Cookie的Domain和Path属性标识了这个Cookie是哪一个网站发送给浏览器的;Cookie的Expires属性标识了Cookie的有 效时间,当Cookie的有效时间过了之后,这些数据就被自动删除了。如果不设置过
2017-09-11 11:00:08 8836
原创 Spark Streaming On Yarn/ On StandAlone模式下的checkpointing容错
Spark On Yarn:在Spark On Yarn模式下部署Spark Streaming 时候,我们需要使用StreamingContext.getOrCreate方法创建StreamingContext实例,指定我们自己的checkpoint目录,用作存储checkpoint数据。容错1:当我们使用spark-submit成功提交一个程序之后,我们可以使用jps能够查看到Co
2017-09-08 15:04:28 1175
天津大学周伟状态压缩论文
2018-09-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人