- 博客(14)
- 收藏
- 关注
原创 Flink对接kafka自行管理offsets
Flink再接入kafka时候难免会遇到重复消费和少消费场景网上很多还没有flink的偏移量管理的好文档自行设置偏移量保存位置这里采用了zookeeper作为保存的地址,就是实时更新偏移量属性。再job挂掉后重新拉取偏移量保存下来就能一次消费啦,但真正做到一次消费必须和业务场景结合来做,比如事务。废话不多说啦,我本地实现了一个小demo先导入必要的pom <d...
2020-04-01 14:15:04 3135 4
原创 手写识别tensorflow版
文章目录1 使用全连接实现手写识别1.1 创建Net类1.2 总结1 使用全连接实现手写识别1.1 创建Net类1 样本中手写识别样本都是28*28尺寸的图片,再写net时候要使用tf.placehoder定义x,y。我们这里x就是输入图片矩阵,y就是10个数字,所以我们分别定义了x的shape=[None,784],前面的None表示批次,再网络训练时候会自动给定值,与此同时我们的y值也差...
2020-04-29 21:36:32 357
原创 Flink源码分析之累加器监控
我们再探索累加器监控如何获取,跟着截图一探到底吧:1.2.然后我们找到node.js渲染模块index.js 文件找到这里就知道flinkweb前端做数据处理写的好复杂样子,是那些开发者故意写这么复杂让我们看不懂吗?3.根据类似ajax请求知道请求了job的控制器获取信息的。来我们看下后端模块如何坑的:JobAccumulatorsInfo.java4.我们搞懂这个类外界如何调用的呢...
2020-04-15 16:06:04 391 2
原创 初试Alink
from pyalink.alink import *Use one of the following commands to start using PyAlink: - useLocalEnv(parallelism, flinkHome=None, config=None) - useRemoteEnv(host, port, parallelism, flinkHome=None,...
2020-04-02 16:15:43 550
原创 ES的插入优化之bulk
插入文档操作的一种优化,因为每次插入单条文档,都会向es中发送请求。然后es执行在返回结果;如果有大批量的文档数据需要插入,这个时候单挑插入操作显然是不合理的;之前学习的命令行批量执行方式:POST /_bulk{ "delete": { "_index": "website", "_type": "blog", "_id": "123" }} { "create": { "_index...
2019-12-06 09:38:59 5314
原创 一.Flink源码研究之wordCount
文章目录1.1 wordcount的案例代码追溯1.1.1 wordcount案例1.1.2 job执行的命令1.1 wordcount的案例代码追溯1.1.1 wordcount案例/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreemen...
2019-12-05 14:22:47 409
原创 卷积神经网络 tensorflow实现
使用tensorflow完成手写数字识别mnist数据集介绍tensorflow的安装设计网络层整体代码结果展示总结mnist数据集介绍MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”. 不过有些人可能对它还不是很了解, 下面来介绍一下.MNIST 数据集可在 http://yann.lecun.com/exdb/mnist/ 获取, 它...
2019-09-28 10:41:54 282
原创 Spark-Streaming 和 Kafka 做实时计算需要注意的点
spark到kafka的消息消费--SparkKafkaDriverHAZooKeeperOps流式计算中最重要的消息的消费总结流式计算中最重要的消息的消费当我们使用spark做准实时计算的时候,很大场景都是和kafka的通信,总结下spark使用kafka的注意事项,下面上代码package com.aura.bigdata.spark.scala.streaming.p1impor...
2018-12-29 16:40:26 1613 2
转载 Spark在美团的实践
Spark在美团的实践问题导读:美团离线计算平台架构都有那些框架?为什么要使用spark架构?spark推广过程中需要注意那些方面?前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场...
2018-08-07 17:05:36 386
转载 数据库性能优化详解
1.数据库访问优化法则 要正确的优化SQL,我们需要快速定位能性的瓶颈点,也就是说快速找到我们SQL主要的开销在哪里?而 大多数情况性能最慢的设备会是瓶颈点,如下载时网络速度可能会是瓶颈点,本地复制文件时硬盘可能会是瓶颈点,为什么这些一般的工作我们能快速确认瓶颈点呢,因为我们对这些慢速设备的性能数据有一些基本的认识,如网络带宽是2Mbps,硬盘是每分钟7200转等等。因此,为了快速找到SQ
2017-07-19 18:02:34 555
转载 安装配置Hive时报错
安装配置Hive时报错:FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.
2017-07-18 16:38:54 654
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人