dingleilovewanping-CSDN博客

原创 Log 监控报警系统

实时监控并只接收错误信息。启动fliebeat。启动logstash。

2024-01-30 09:58:17 612 1

浅谈朴素贝叶斯算法一. 对朴素贝叶斯的理解朴素贝叶斯算法是通过考虑特征概率来预测分类。之所以有朴素二字，是因为需要对于所研究的特征维度进行一个假设各个特征维度之间是相互独立的，则朴素贝叶斯成立。对于假设独立性来说，很多情况下属性之间相关性较大时，分类效果不坏。这一假设使得朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。二. 朴素贝叶斯的三个阶段朴素贝叶斯分类分为三个阶段：第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个

2022-03-17 17:54:29 435

原创普罗米修斯监控

普罗米修斯全方位监控安装部署安装普罗米修斯wgethttps://github.com/prometheus/prometheus/releases/download/v2.3.2/prometheus-2.3.2.linux-amd64.tar.gztar -xvf prometheus-2.3.2.linux-amd64.tar.gz启动./prometheus网页端口 ip:9090安装kafka_exporterwget https://github.com/da

2022-03-03 18:14:40 2327

原创 java对于金额为汉字的处理转换

/** * 大写金额转数字 * */ public static String ChineseConvertToNumber(String chineseAmount) { if (chineseAmount == null || chineseAmount.length() <= 0 || chineseAmount == "") { return null; } //移除计算干扰文...

2022-02-28 14:19:29 325

原创 java正则表达式剔除html标签

package com.dl.util;import java.util.regex.Matcher;import java.util.regex.Pattern;public class DelHTMLUtil { private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定义script的正则表达式 private static fina

2022-02-28 11:06:16 214

原创编辑距离算法比较两个字符串内容不同

package com.adt.util;/** * 标记前后内容不同 */public class StringHighLightDifferentUtil { /** * 得到标记的字符串 */ public static String[] getMark(String a, String b) { String[] temp = getTempString(a, b); String[] result =

2022-02-28 10:59:04 136

原创 flink整合ActiveMQ之ActiveMQSource

package com.dl.activeMQimport java.util.Dateimport javax.jms._import org.apache.activemq.ActiveMQConnectionFactoryimport org.apache.flink.configuration.Configurationimport org.apache.flink.streaming.api.functions.source.{RichSourceFunction, SourceFu

2022-02-28 10:42:51 1649

原创 CDH运维

Cloudera Management Service2020.04.13 10:22发出警告，修改java内存配置结束后重启服务，偶尔会出现红色警报Cloudera Manager Server GC cpu使用率为总处理时间的10％或更多。过了一会儿，红色警报自动消失。HDFS2020.04.13 10:47警告：NameNode和SecondaryNameNode有不同的heapsizes修改SecondaryNameNode Java堆栈大小与 NameNode 相同 4

2022-02-28 10:30:17 1863

原创 CDH集群安装步骤

CDH集群安装步骤准备工作：集群之前已经装好CentOS7，防火墙也已经关闭，对于mysql所配置的则是在另一台节点之上，已创建好cloudera-manageer的初始化数据库。1.准备相关安装包，将安装包上传/data/2.vi /etc/hosts 修改主机映射3.配置ssh免密登录4.安装ntp服务，配置各个节点时间同步，两个从节点与主节点同步，主节点与阿里云时间同步yum -y install ntp5.禁用透明页(所有节点，优化可选）echo never > /sys

2022-02-28 10:25:49 1333

原创匹配除中文括号外的其他标点符号

[\pP\p{Punct}&&[^（]&&[^）]]

2021-12-28 15:28:10 404

原创 flink程序打包上传yarn

2021-07-05 14:56:56 308

原创 logstash抽取数据库发送到kafka，以及使用logstash的something

input { jdbc { jdbc_connection_string => "jdbc:mysql://ip:PORT/database?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=utf8&useSSL=false&allowMultiQueries=true&zeroDateTimeBehavior=convertToNull"

2021-07-05 14:40:34 312

原创一些常用的大数据命令（日常更新）

一些常用的大数据命令（日常更新）note：由于本人经常忘记各种命令（包括一些简单的），所以做一个总结Linux常用命令查找大文件 ls -lh $(find /data -type f -size +100M)查看目录文件占用最大 du -h --max-depth=1或者 du -sh *查看磁盘使用 df -h查找文件 find / -name ‘filename’查找目录 find / -name ‘path’ -type d查找内容 find . | xarg

2021-07-05 14:10:13 231

原创大数据知识点（持续更新中。。。）

hdfshdfs组件Namenode : 存储系统元数据、 namespace、管理datanode、接受datanode状态汇报Datanode: 存储块数据，响应客户端的块的读写，接收namenode的块管理理指令Block: HDFS存储数据的基本单位，默认值是128MB，实际块大小0~128MBRack: 机架，对datanode所在主机的物理标识，标识主机的位置，优化存储和计算为什么HDFS不适合小文件存储？情况Namenode占用Datan

2020-10-09 15:49:07 261

原创 Kettle导出mysql数据到hive

Kettle导出mysql数据到hive通过Kettle导出mysql数据到hive有两种方案： 1. 将hive表直接作为表输出进行先将数据上传到hdfs，然后执行SQL语句load到hive具体步骤如下：(1）将hive安装目录下，lib里面的所有hive开头的jar包转移至kettle的大数据jar包目录下 data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib(2)

2020-08-13 14:43:00 487

原创 logstash 消费数据到kafka异常

报错：[logstash.outputs.kafka ] Sending batch to Kafka failed. Will retry after a delay. {:batch_size=>1, :failures=>1, :sleep=>0.1}原因： logstash 日志报错生产数据到 kafka 失败解决办法：查看kafka配置，默认单条消息最大为1M，当单条消息长度超过1M时，就会出现发送到broker失败，从而导致消息在producer的队列中一直累

2020-07-18 15:39:32 1732

原创解决idea本地打包检测到多个版本的Scala库问题 Multiple versions of scala libraries detected

报错如下：解决方法：pom文件note：声明scala.binary.version与scala.version版本一致即可 <properties> <scala.version>2.**</scala.version> <scala.binary.version>2.**</scala.binary.version> </properties> <plugin&g

2020-07-07 19:44:01 11361 7

原创数据分析平台对接阿里云大数据MaxCompute

数据分析平台对接MaxCompute一．Mysql全量，增量实时同步到MaxCompute方案一从MySQL直接实时同步到MaxCompute在MaxCompute的DataWorks控制台的数据集成模块可以实现实时同步，该模块的实时同步功能是根据Mysql Binlog日志进行数据的同步，但是该模块在测试中，并未开放，可以向阿里云服务的人员申请功能为自己的账号开放，即可配置使用。该实时...

2020-03-18 10:59:49 702

原创新闻舆情分析整合阿里云大数据平台流程分析

新闻舆情分析目录新闻舆情分析 1一．业务整体流程步骤 1二．DatatHub对接Mysql数据源（购买同步作业方案） 2操作步骤 22.相关Questions: 53.官方文档关于附加列的说明 6三. 实时计算操作 8关于阿里云实时计算平台的操作 82.阿里云实时计算平台上的Flink SQL 83.其他方案(DataHub自身的函数计算) 11四．配置MaxComput...

2020-03-18 10:57:05 723

原创 MaxCompute及其相关组件

MaxCompute及相关组件目录MaxCompute及相关组件 1一．对于MaxCompute的理解 1官方定义 1对MaxCompute理解 1二． MaxCompute的阿里云相关组件介绍 2DataWorks 22.DataHub 53.Tunnel 64.Quick BI 7三．新闻舆情分析其他相关组件介绍 7阿里云实时计算平台 7四． MaxCompute...

2020-03-18 10:53:08 689

原创阿里云maxcompute dataHubSourceFunction和dataHubSinkFuncation scala版本

package com.alibaba.flink.connectors.datahub.datastream.flinkimport com.alibaba.flink.connectors.datahub.datastream.sink.{DatahubRecordResolver, DatahubSinkFunction}import com.aliyun.datahub.client...

2020-03-04 17:15:01 919

原创初学MaxCompute

MaxComputer是阿里云提供的一种全新的大数据计算服务，其具备更高效的计算及存储能力，本人的理解就是一个类似于HBase,Hive的云上的数据仓库。参考官方文档系列：https://yq.aliyun.com/articles/85595?spm=a2c4e.11153940.blogcont78108.17.46c53af60mplZf一什么是MaxCompute大数据计算服务（...

2020-02-13 11:18:10 897

原创 Flink通过抽取Mysql增量数据到Hbase，期间做新旧数据对比统计

mysql_kafkapackage com.dl.kafka;import com.adt.entity.ShareHolder;import com.adt.vo.TimeStamp;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Pro...

2020-01-17 16:37:54 1405

原创 canal --mysql实时增量导出

关于canal，网上已经

2020-01-17 16:30:22 444

原创 Flume抽取SpringBoot logback日志到kafka

中间件Kafka+Flume配置a1.sources = s1a1.sinks =sk1a1.channels = c1a1.sources.s1.type = avroa1.sources.s1.channels = c1a1.sources.s1.bind = CentOSa1.sources.s1.port = 44444a1.sources.s1.interceptor...

2020-01-07 17:31:36 632

原创 Flink从HBase通过抽取数据进行计算再存入HBase

业务场景：Flink从HBase中抽取增量的数据，IP_COPYRIGHT_SOFTWARE_LIST有一条新的记录产生时，清洗出COMPANY_ID,IP_SOFRWARE_ID外连接IP_COPYRIGHT_SOFTWARE,判断USE_FLAG是否为0，不为零则不累加计算每次用COMPANY_ID 去IP_COPYRIGHT_SOFTWARE_LIST表里做统计IP-SOFTWARE_ID...

2019-12-23 10:15:50 1373 4

原创 Sqoop从Mysql自动批量导入到HBase

通过shell脚本进行自动导入，由于数量较多，容易发生内存溢出问题，可以每10w条数据导入一次，进行自动循环导入#!/bin/bashminsql="select min(id) from IP_COPYRIGHT_SOFTWARE_LIST;"minid=$(mysql -h 192.168.131.168 -P 3306 -u root -pDataadt123! -D IPTRADE...

2019-12-23 10:01:09 365

原创 Flink

Apache Flink概述Flink 是构建在数据流之上的一款有状态的流计算框架，通常被人们称为第三代大数据分析方案第一代大数据处理方案：基于Hadoop的MapReduce 静态批处理 | Storm 实时流计算，两套独立的计算引擎，难度大（2014年9月）第二代大数据处理方案：Spark RDD 静态批处理、Spark Streaming（DStream）实时流计算（实时性差...

2019-11-10 00:17:55 721

原创 Spark Stanalone HA（Spark高可用集群的搭建）

Standalone集群构建基础环境准备物理资源：CentOSA/B/C-6.10 64bit 内存2GB主机名IPCentOSA192.168.12.143CentOSB192.168.12.144CentOSC192.168.12.145节点与主机映射关系主机节点服务CentOSANameNode、ZKFC、Z...

2019-10-13 14:06:16 220

原创 Structured Streaming

Structured Streaming什么是Structured Streaming泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎，该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Structured Streaming底层毁掉用SparkSQL 引擎对流数据做...

2019-10-13 14:04:44 340

原创 Spark SQL

Spark SQLSpark SQL是构建在Spark RDD之上一款ETL（Extract Transformation Load）工具（类似Hive-1.x-构建在MapReduce之上）。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多的信息（计算数据结构、转换算子），Spark计算引擎可以根据SparkSQL提供的信息优化底层计算任务。目前为...

2019-10-13 14:00:56 320

原创 Spark DStreams

Spark DStreamsDStreams是什么DStreams是构建在Spark RDD之上的一款流处理工具，意即Spark DStreams并不是一个严格意义上的流处理，底层通过将RDD 在时间轴上分解成多个小的 RDD-micro batch流 | 批处理计算类型数据量级计算延迟输入数据输出计算形式批处理MB=>GB=>TB几十分钟|几个...

2019-10-13 13:59:33 226

原创 Spark RDD学习资料

Apache Spark框架概述Apache Spark是一个快如闪电的统一的分析引擎（仅仅是一款分析引擎，不提供存储服务）快：相比较于第一代基于磁盘计算的离线分析框架MapReduce而言，Spark基于内存计算较快统一：Spark提供统一的API访问接口，实现了批处理和流处理的统一，并且提供ETL功能同时提供对大规模数据集的全栈式解决方案：批处理、流处理、SQL、Machine L...

2019-10-05 11:22:53 386

原创 Scala学习资料

Scala LanguageScala语言Scala是一门多范式的编程语言，能够以一种优雅的方式来解决现实问题，同时支持面向对象和面向函数的编程风格。虽然它是强静态类型的编程语言，但是它强大的类型推断能力，使其看起来就像是一个动态编程语言。Scala语言最终会被编译成java字节码文件，可以和JVM无缝集成，并且可以使用Scala调用Java的代码库。Scala编程语言除了自身的特性以外，目前...

2019-10-05 11:16:10 538

原创 hive学习资料

大数据课程Hive编程1. 引言什么是Hive1. Hive是apache组织提供的一个基于Hadoop的数据仓库产品数据库 DataBase OLTP 数据量级小数据价值高数据仓库 DataWarehouse OLAP 数据量级大数据价值低2. Hive基于Hadoop 底层数据存储 HDFS...

2019-10-05 11:10:31 470

原创 Apache Storm学习资料

Apache Storm一、概述http://storm.apache.org/Apache Storm是一款免费开源的分布式实时计算的框架（流处理）Apache Storm可以非常容易并且可靠的处理无界的流数据，进行实时的分析处理。Apache Storm支持多种编程语言（1.x版本Clodure 2.x版本Java重构）。适用场景：实时分析，在线的机器学习，持续计算，分布式的RP...

2019-10-05 11:07:10 570 1

原创 Kafka Streaming

Kafka Streaming概述Kafka Streams是一个用于构建应用程序和微服务的客户端库，其中的输入和输出数据存储在Kafka集群中。它结合了在客户端编写和部署标准Java和Scala应用程序的简单性，以及Kafka服务器端集群技术的优点。特点弹性、高可扩展、容错可以部署在容器、虚拟机、单独、云环境中同样适用于小型、中型和大型用例集成Kafka Security写标准的...

2019-10-05 10:32:02 307

原创 kafka学习资料

Kafka笔记一、概述http://kafka.apache.org/Apache Kafka® is a distributed streaming platform——分布式的流数据平台Kafka具备三项关键能力：发布订阅记录流（Record），类似于消息队列（MQ）或者企业级消息系统存储记录流，以一种容错持久化方式实时处理加工流数据Kafka的应用场景：构建实时的流...

2019-10-05 10:24:51 612

本地hadoop程序bug ExitCodeException exitCode=-1073741701.zip

空空如也