自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (13)
  • 收藏
  • 关注

原创 StreamSets实战之路(十七)-实战篇-数据服务快速微服务化

主要通过一个数据服务快速微服务化的案例来介绍Streamsets(3.20.0 汉化版)的使用。在当前下,微服务化异常盛行,肯能大家之前都用过spring boot实现微服务应用(当然不知道的可以搜下 RESTful API,这里涉及的比较多不重点讲),很多原来不是微服务的服务就需要快速地改成RESTful 接口对外提供服务,要是要用spring boot改写的话,想必一定要Coding了,哈哈,现在不需要了,本章通过一个案例介绍怎么通过streamsets快速实现服务的微服务化。学习目的:学习使用构.

2021-02-24 21:42:28 1702 6

原创 StreamSets实战之路(十六)-实战篇-数据序列化与反序列化

主要通过一个数据序列化与反序列化的案例来介绍Streamsets(3.20.0 汉化版)的使用,因为大数据加工与处理的时候,避免不了数据的序列化与反序列化,这里主要讲一下使用数据序列化插件和反序列化插件实现avro格式数据序列化与反序列化,。当然还是可以序列化其他格式,这里挑一个难的讲一下。学习目的:学习使用Data Generator 和 Data Parser。最终数据流的效果图:需要配置一个数据流。序列化效果:反序列化效果:前期准备:1.一些JSON格式的..

2021-02-24 21:29:13 731 2

原创 StreamSets实战之路(十五)-实战篇- 数据采集与处理

主要通过一个数据采集与处理的案例来介绍Streamsets(3.13.0)的使用,主要将使用Edge数据流收集streamsets系统的日志和主机性能指标,通过收集数据流收集类数据并进行简单处理,发送至kafka中,性能指标数据入库数据流和日志数据入库数据流分别从kafka中消费数据,并将两类数据进行简单处理加载到数据库中。学习目的:使用edge和streamset的数据互动,使用streamset进行分布式异步数据处理。

2021-02-24 21:20:27 3271 2

原创 StreamSets实战之路(十四)-实战篇- 定时数据迁移

主要通过一个定时数据迁移的案例来介绍Streamsets(3.20.0 汉化版)的使用,主要将mysql的数据定时将前一天的数据迁移到ES中,主要包括任务调度器、定时启动数据迁移数据流等。最终数据流的效果图:需要配置两个数据流数据迁移调度器数据流数据迁移工作流前期准备:(1)需要在mysql数据库中准备一张每天都有新增数据的表,该表必须有一个时间字段,用于选取时间范围。构建步骤:首先构建数据迁移数据流从mysql中读取数据我们选用origin类JD...

2021-02-23 21:04:48 2143 15

原创 StreamSets实战之路(十三)-实战篇- 采集新浪财经实时新闻

主要通过一个新浪财经实时新闻采集的案例来介绍Streamsets(3.20.0 汉化版)的使用,主要包括数据采集、网页数据解析、数据检测、数据入库、邮件通知等。

2021-02-23 20:15:14 1583 8

原创 Flink日记--记一次flink消费数据卡住

背景: 最近用flink做实时异常检测,实时消费kafka数据,提交作业后消费一部分数据后就不在消费了,好像卡住了,kafka消息队列中一直在积压,作业也不会挂掉。之前一直没问题,最近将代码进行了重构出现了问题。一直以为是代码问题,不料最终发现是 CPU 核心数太少了。分析: 1、单一物理机CPU为32个,一个3节点的flink集群 2、FLink配置将 taskmanager.numberOfTaskSlots 设置为 2 3、 代码中使用了分流器 sid...

2020-11-24 20:41:19 2446

原创 StreamSets实战之路(十二)-基础篇- StreamSets-数据流管理

主要介绍StreamSets中数据流管理,包括:导入导出、复制、分享、删除、批量启停。(1)导入导出,在进行数据流迁移时会用到(2)数据流复制,在需要多个数据流并行执行时需要用到(3)数据流分享,多用户不同权限的用户之间可以进行数据流的分享(4)数据流删除,不需要的数据流可以进行批量删除(5)数据流批量启停,在需要进行多个数据流进行批量启动或停止时从下一篇开始,进入 StreamSets实战之路-实战篇,将用几个实例进行讲解!S...

2020-06-26 19:47:42 3189 22

原创 StreamSets实战之路(十一)-基础篇- StreamSets-数据流开发- Edge数据流设计

主要介绍StreamSets中Edge数据流设计,以系统硬件指标采集为例,将从指定的机器上采集相关指标,并将指标发送到数据流中进行处理。Edge数据流是使用较少资源在远端设备运行的工作流(支持的设备系统包括:linux、mac、win、arm等),主要工作物联网设备终端进行数据采集以及进行简单的数据处理,达到终端设备的智能处理,另外,数据在终端设备中进行简单处理,可以减少数据传输,减少带宽占用。(1)创建一个Edge数据流(2)设置数据流,将System Metric...

2020-06-26 19:02:40 1450 2

原创 StreamSets实战之路(十)-基础篇- StreamSets-数据流开发-微服务数据流设计

主要介绍StreamSets中微服务数据流设计,以mysql的CRUD操作为例,来设计微服务数据流。微服务在当前已经是非常流行的技术,将大型或复杂的系统进行模块拆分成功能单一、组织灵活的微服务,从而降低系统的耦合性,提高系统的灵活性、高可用性、运行高效性等。为此,Streamsets也提供了微服务简单、快速的开发方案,在设计微服务时,只需通过现有的插件任意组合就可以设计出简单或复杂的微服务。(1)创建一个微服务数据流(2)会生成一个微服务数据流模板(3)...

2020-06-26 18:50:22 2912 3

原创 StreamSets实战之路(九)-基础篇- StreamSets-Executor类组件使用

主要介绍StreamSets-Executor类组件有哪些、分类、主要用途以及使用方法。 Executor类组件主要在收到事件时会触发任务。Executor类组件主要包含以下:ADLS Gen1 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen1中的文件或目录。ADLS Gen2 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake S...

2020-06-26 18:40:13 2349 3

原创 StreamSets实战之路(八)-基础篇- StreamSets-Destination类组件使用

主要介绍StreamSets-Destination类组件有哪些、分类、主要用途以及使用方法。Destination类组件主要是将在StreamSets DC上的数据输出落地到指定的存储服务或其他服务等Destination类组件主要包含以下:Aerospike // Aerospike数据输出组件,将数据写到Aerospike(分布式KV库) 库中Amazon S3 // S3数据输出组件,将数据写到S3上Cassandra // Cassandra数据输出组件,将数据写到Cass.

2020-05-29 21:39:01 2635 2

原创 StreamSets实战之路(七)-基础篇- StreamSets-Processor类组件使用

主要介绍StreamSets-Processor类组件有哪些、分类、主要用途以及使用方法。Processor类组件主要包含以下:Base64 Field Decoder // base64 解码组件Base64 Field Encoder // base64 编码组件Control Hub API // Control Hub 接口调用组件Couchbase Lookup // Couchbase查询组件,用于从Couchbase系统中读取数据Data Generator //..

2020-05-18 09:39:09 4075 1

原创 StreamSets实战之路(六)-基础篇- StreamSets-origin类组件使用

主要介绍StreamSets-origin类组件有哪些、分类、主要用途以及使用方法。Origin类组件主要包含以下:Amazon S3Amazon SQS ConsumerAzure Data Lake Storage Gen1Azure Data Lake Storage Gen2Azure IoT/Event Hub ConsumerCoAP ServerCron Scheduler // 任务调度组件,用于调度数据流Directory // 文件目录组件,用于从.

2020-05-17 11:41:53 3860 7

原创 StreamSets实战之路(五)-基础篇- StreamSets开启第一个数据流

主要介绍第一个工作流的创建、预览、启动过程,这条数据流将本地文件中的数据进行处理,最终将处理过的数据存放到本地磁盘上(streamsets 运行在CentOS7上)。1 数据准备阶段在本地磁盘的/tmp目录下新建一个inputdatas 目录,并将我们准备好的数据放置到该目录下,这里我们准备了一个json文件,再在/tmp目录下新建一个outputdatas用于存放处理后的数据。2 数据流设计阶段(1)新建一个数据流,填写数据流名字、描述信息、定义一个标签信息。选择数据流类型为Dat...

2020-05-10 21:07:32 5311 17

原创 StreamSets实战之路(四)-环境篇- StreamSet工作平台介绍

主要介绍StreamSets DC 工作平台各个模块。

2020-04-29 20:56:58 4506

原创 StreamSets实战之路(三)-环境篇- StreamSet源码查看与编译

主要介绍StreamSets DC和StreamSets DC Edge怎么看源码和从源码编译生成安装包。

2020-04-28 23:12:24 5007 18

原创 oozie调度总结(二)

重点介绍Pig、Hive使用Tez模式在Oozie上的调度

2020-04-26 20:54:03 269

原创 oozie调度总结(一)

重点介绍oozie调度中 MapReduce 、Spark、Hive workflow的构建以及构建过程中遇到的问题

2020-04-26 20:28:39 666

原创 StreamSets实战之路(二)-环境篇- StreamSets安装与配置

主要介绍StreamSets DC和StreamSets DC Edge的安装以及环境配置。

2020-04-25 22:03:51 8574 9

原创 StreamSets实战之路(一)-环境篇- StreamSets简介

StreamSets总体介绍StreamSets是国外一家致力于数据处理与分析的大数据解决方案的公司。公司主要选择DataOps发展路线,解决将数据转化为业务价值的重大挑战。至于为什么选择DataOps这条路子,有兴趣的同学可以查看https://streamsets.com/why-dataops/what-is-dataops/。自公司成立以来,成功研制了多款用于数据处理的软件及平台。...

2020-04-25 12:05:10 6702 4

原创 轻量级大数据日志采集系统比较:LogAgent、FileBeat、Fluentd

名称 语言 star 代码更新 产品所属 是否支持自动发现 是否能采集syslog k8s部署 是否支持容器采集 是否支持win系统日志 输出的数据格式 ...

2020-03-10 17:13:38 12681

原创 Intellij IDEA搭建Spark源码阅读环境

环境:win7  JDK1.7  Maven3.31.下载安装Scala环境,按默认设置即可,配置环境变量,在命令行下输入Scala,会出现交互界面。2.下载安装git,配置环境变量,在命令行下输入git,会出现参数选项。注意:这里为什么要下载git,因为sbt生成eclipse项目的时候会用到git去下载依赖包。3.从 Github 导入 Spark 工程

2016-01-07 11:05:36 853

原创 java 反射异常和 找不action的解决方案

1 java反射异常,主要是你后台那个action那个类中,存在多个get...的函数,strust2进行反射的时候是对每个get..的函数进行序列化,若是存在多个get..的函数,就会出现java反射异常,解决方案:若是存在多个get..,将不需要返回的函数上面加上@JSON(serialize=false)2  第二个错误主要是,你前台传过来的参数有问题,请仔细查看前台传来的参数,

2015-11-23 12:32:50 647

原创 jqgrid前台数据显示问题原因和解决方案

这个问题很是坑的,找了很多网上的办法都不行,也是郁闷了一天,都没和女朋友说上话,唉,解决这个问题的你一定要记住以下几点:1.传回前台的数据一定是JSon类型的数据,而不是后台json数据转化后的字符串2.传回前台的json数据的格式一定要正确,你可以去在线的json数据验证,去验证一下你传回前台的数据是否符合json的格式我之间遇到的问题和解决过程:问题一:数据传到前端是“

2015-11-21 19:36:37 3937

原创 docker1.7 搭建spark1.4.0-hadoop2.6集群

1 概述     现在国内的资料很少,即使你看到了,资料也不是很全,每个人都为中国在这方面做点贡献,也是为了相互学习。作为学习Spark中的一个重要环节--搭建Spark集群,此次搭建环境使用了Docker1.7,Spark1.4-hadoop2.6,搭建的集群环境,操作系统为CentOS6.5,内存4G2 升级Linux内核      具体的什么是Docker,以及Docker的基本

2015-09-14 21:35:26 1293

原创 Windows 上使用Intellij DEAR14 搭建Spark14编程环境总结

1.下载安装Scala2.10.52.下载安装Intellij DEAR143.下载安装scala-intellij-bin-1.5.2(Scala插件),当然网速好的话,可以使用Intellij DEAR14安装Scala插件这里我们使用手动下载,下载完成后,解压到Intellij IDEA 安装目录中的plugins里面去4.下载spark-1.4.0-bin-hadoop2.

2015-09-12 17:26:33 516

原创 hadoop-2.5.2 安装与配置

1 系统环境说明     CentOS-6.5-x86_64-minimal     192.168.137.101 master     192.168.137.102 slave1     192.168.137.101 slave22 安装前的准备工作2.1 配置网络     分别进入三台机器的网络配置文件,进入vi /etc/sysconfig/network-

2015-08-16 11:11:41 1181

原创 mongoDB的安装

1.下载 mongoDB2.6.1 版本     国外网站下载使人捉急,去我云盘下载就行我现在只有了32位的,64位随后下载链接:http://pan.baidu.com/s/1i3zXFjZ 密码:jkcz2.解压文件,转移文件,重命名tar -zxvf mongodb-linux-i686-2.6.1.tgzmv mongodb-linux-i686-2.6.1 /opt/

2015-08-16 11:05:23 346

原创 python解决数据预处理:将KDDCPU99数据格式转换成libsvm可读的格式

最近在研究基于支持向量机的入侵检测,使用的是KDDCPU99的数据,但是KDDCPU99数据的格式是cvs格式的,我们用的支持向量机的插件用的是libsvm库,但是libsvm读数据的格式是 label index:属性 index:属性;label是分类的标记,后面是跟着的属性。线面本人用python语言写了这段数据转换代码与大家分享。有啥问题请留言,可以相互交流的。im

2015-06-21 10:53:47 4018 3

原创 单例模式

当第一次调用GetInstance时,instance 为NULL,所以会执行instance = new Singleton();把这个新建的实例保存到静态成员instance,并返回这个指针。第二次到第N次调用GetInstance时,由于instance不为空,所以会直接返回instance 。也就是第一次调用GetInstance创建的那个实例。所以这样就实现了,单实例。意

2014-03-15 22:48:59 480

企业级大数据平台构建:架构与实现_朱凯.pdf

本书从企业的实际需求出发,完整地介绍了构建一个真实可用、安全可靠的企业级大数据平台所需要运用的知识体系,并详细地描述了构建企业级大数据平台的设计方案和实施步骤。本书逻辑上可分为3大部分,共8章,每个章节循序渐进:第一部分(第1、2章)描述了企业级大数据平台的需求和能力。第二部分(第3~5章)着重讲述了如何去搭建并配置一个大数据平台,以及如何构建非常重要的平台安全方案。第三部分(第6~8章)以实战的形式讲解如何以Java编码的方式实现平台的基础管理功能,以提升其易用性与可用性。

2019-06-02

phantomjs-2.1.1-linux-ppc64le.tar.gz

phantomjs是一个无头浏览器,官方下载没有ppc64le版本的,由于编译时间较长,特供编译成功的2.2.1-linux-ppc64le版本,欢迎知道下载。

2017-05-31

Devexpress15.1.5 破解工具

Devexpress15.1.5 破解工具

2015-09-06

HOG特征提取,Matlab编程

HOG特征提取,以通过测试,希望对大家能够有所帮助。

2015-01-14

ANDROID取证实战—调查、分析与移动安全

ANDROID取证实战—调查、分析与移动安全

2014-07-30

0day安全-软件漏洞分析技术

0day安全-软件漏洞分析技术,一本超级经典的0day软件漏洞分析技术

2014-07-11

软件测试面试突击

软件测试面试突击,一本超级经典的软件测试面试书籍

2014-07-10

非安全黑客手册0912期PDF电子书.pdf

非安全黑客手册0912期PDF电子书,里面讲述安全与非安全的网络攻防信息

2013-05-05

VS2010中动态创建水晶报表的心得.

VS2010中动态创建水晶报表的心得.大家可以根据这学到很多的知识

2012-10-14

图书信息管理系统

图书信息管理系统带你不一般的感受,你打可以进行参考

2012-07-17

wireshark抓包教程

wireshark抓包教程帮你学会

2012-07-17

mysql使用大全

mysql使用大全,帮助你很快的掌握mysql

2012-07-17

wireshark_1.7.0.exe

wireshark_1.7.0.exe 是一款网络抓包工具,想要了解更多就下载吧

2011-11-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除