自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

梧桐听夜雨

昨夜西风凋碧树,独上高楼,望尽天涯路!

  • 博客(14)
  • 收藏
  • 关注

原创 Flink对接kafka自行管理offsets

Flink再接入kafka时候难免会遇到重复消费和少消费场景网上很多还没有flink的偏移量管理的好文档自行设置偏移量保存位置这里采用了zookeeper作为保存的地址,就是实时更新偏移量属性。再job挂掉后重新拉取偏移量保存下来就能一次消费啦,但真正做到一次消费必须和业务场景结合来做,比如事务。废话不多说啦,我本地实现了一个小demo先导入必要的pom <d...

2020-04-01 14:15:04 2997 4

原创 手写识别tensorflow版

文章目录1 使用全连接实现手写识别1.1 创建Net类1.2 总结1 使用全连接实现手写识别1.1 创建Net类1 样本中手写识别样本都是28*28尺寸的图片,再写net时候要使用tf.placehoder定义x,y。我们这里x就是输入图片矩阵,y就是10个数字,所以我们分别定义了x的shape=[None,784],前面的None表示批次,再网络训练时候会自动给定值,与此同时我们的y值也差...

2020-04-29 21:36:32 267

原创 ES监控爬虫指标分析策略之kibana使用分渠道IP请求xxTimeline使用

#kibana 可视化工具使用

2020-04-18 19:58:49 228

原创 ES监控爬虫指标分析策略之kibana使用分渠道IP请求xx数量统计表

kibana数据表使用方法在biana建立数据表在biana建立数据表

2020-04-18 19:53:52 548

原创 Flink源码分析之累加器监控

我们再探索累加器监控如何获取,跟着截图一探到底吧:1.2.然后我们找到node.js渲染模块index.js 文件找到这里就知道flinkweb前端做数据处理写的好复杂样子,是那些开发者故意写这么复杂让我们看不懂吗?3.根据类似ajax请求知道请求了job的控制器获取信息的。来我们看下后端模块如何坑的:JobAccumulatorsInfo.java4.我们搞懂这个类外界如何调用的呢...

2020-04-15 16:06:04 363 2

原创 初试Alink

from pyalink.alink import *Use one of the following commands to start using PyAlink: - useLocalEnv(parallelism, flinkHome=None, config=None) - useRemoteEnv(host, port, parallelism, flinkHome=None,...

2020-04-02 16:15:43 535

原创 ES的插入优化之bulk

插入文档操作的一种优化,因为每次插入单条文档,都会向es中发送请求。然后es执行在返回结果;如果有大批量的文档数据需要插入,这个时候单挑插入操作显然是不合理的;之前学习的命令行批量执行方式:POST /_bulk{ "delete": { "_index": "website", "_type": "blog", "_id": "123" }} { "create": { "_index...

2019-12-06 09:38:59 5265

原创 一.Flink源码研究之wordCount

文章目录1.1 wordcount的案例代码追溯1.1.1 wordcount案例1.1.2 job执行的命令1.1 wordcount的案例代码追溯1.1.1 wordcount案例/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreemen...

2019-12-05 14:22:47 305

原创 卷积神经网络 tensorflow实现

使用tensorflow完成手写数字识别mnist数据集介绍tensorflow的安装设计网络层整体代码结果展示总结mnist数据集介绍MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”. 不过有些人可能对它还不是很了解, 下面来介绍一下.MNIST 数据集可在 http://yann.lecun.com/exdb/mnist/ 获取, 它...

2019-09-28 10:41:54 218

原创 Spark-Streaming 和 Kafka 做实时计算需要注意的点

spark到kafka的消息消费--SparkKafkaDriverHAZooKeeperOps流式计算中最重要的消息的消费总结流式计算中最重要的消息的消费当我们使用spark做准实时计算的时候,很大场景都是和kafka的通信,总结下spark使用kafka的注意事项,下面上代码package com.aura.bigdata.spark.scala.streaming.p1impor...

2018-12-29 16:40:26 1496 2

转载 Spark在美团的实践

Spark在美团的实践问题导读:美团离线计算平台架构都有那些框架?为什么要使用spark架构?spark推广过程中需要注意那些方面?前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场...

2018-08-07 17:05:36 355

转载 文章标题

数据库性能优化详解 - 无知的博客 - CSDN博客

2017-07-19 18:06:06 833

转载 数据库性能优化详解

1.数据库访问优化法则 要正确的优化SQL,我们需要快速定位能性的瓶颈点,也就是说快速找到我们SQL主要的开销在哪里?而 大多数情况性能最慢的设备会是瓶颈点,如下载时网络速度可能会是瓶颈点,本地复制文件时硬盘可能会是瓶颈点,为什么这些一般的工作我们能快速确认瓶颈点呢,因为我们对这些慢速设备的性能数据有一些基本的认识,如网络带宽是2Mbps,硬盘是每分钟7200转等等。因此,为了快速找到SQ

2017-07-19 18:02:34 527

转载 安装配置Hive时报错

安装配置Hive时报错:FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.

2017-07-18 16:38:54 613

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除