自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 Hadoop HA模式切换

Hadoop ha模式下 主节点的主备切换

2023-08-29 11:03:21 841

原创 Sparkthrift Server 启动命令调优及问题报错解决

文章目录1、sparkthrift Server 启动命令2、实际生产过程中的报错解决2.1、Kryo serialization failed: Buffer overflow. Available: 0, required: 2428400. To avoid this, increase spark.kryoserializer.buffer.max value2.2、java.lang.OutOfMemoryError: GC overhead limit exceeded2.3、Job abort

2023-03-15 16:27:00 2055 1

原创 sqoop 数据同步方案理解+问题解决

sqoop 数据同步方案理解+问题解决

2023-02-11 11:00:40 1994 3

原创 并发、并行、吞吐量、延迟、响应时间 含义理解

并发、并行、吞吐量、延迟、响应时间

2023-02-11 10:27:15 1781

原创 CDH中某一结点任务异常,节点服务重启失败报错:No space left on device

cdh运维

2022-12-10 09:53:44 896

原创 Sparkthrift-sql执行报错-File does not exist: hdfs://xxx/t_bd_materialgroup/xxx.parquet

spark

2022-11-26 14:55:38 1757

原创 【问题探讨】exists & in 使用效率探究

exists 和 in 执行效率的问题探讨

2022-11-12 11:01:00 1184

原创 【持续更新】Spark Submit命令 配置参数详解

spark submit 参数

2022-11-10 12:30:20 5808

原创 Spark 连接 Mongodb 批量读取数据

spark 读取 mongodb 数据

2022-10-29 16:13:47 2674 1

原创 FineWord试用,闪退、报警等bug问题解决

Fineword试用bug问题解决

2022-10-29 10:23:16 1183

原创 Spark 链接 Mongodb 报错:java.lang.NoSuchFieldError: UNSPECIFIED

spark connect mongodb

2022-08-31 10:06:01 1147 2

原创 项目上线问题——(本地)内网可以访问,但是外网调用接口均为跨域

项目部署,跨域问题

2022-07-22 11:46:29 2940 5

原创 nohup 命令的简单理解

shell 命令的简单拓展

2022-06-29 14:16:54 12676

原创 sqoop-mysql数据导出-报错:java.math.BigInteger cannot be cast to java.lang.Long

今天需要一台电脑的mysql数据库中导出一张表的数据,遇到了一个问题,我觉得值得记录一下。sqoop 导入方式为:mysql -> hdfs (导入文件系统,不是hive)。下面展示sqoop job 命令:#!/bin/bash#Set the RDBMS connection paramsrdbms_connstr="jdbc:mysql://xxx.xxx.xxx.xxx:3306/tablespace"rdbms_username="root"rdbms_pwd="mysql"

2022-05-27 10:13:56 605

原创 java问题解决-oracle.jdbc.OracleDatabaseException: ORA-00911: 无效字符

今天遇到一个恶心的bug,记录一下,长个见识,下次注意。上代码:一段查询语句,报错无效字符;语句已经验证了三四遍,没有问题,报错sql也截出来在oracle执行了,没有问题,顺滑的出结果了。一开始以为是参数的问题:以为是参数没带进去;增加了参数的类型描述,换了参数名,还是不行,崩溃。最后我直接把两个参数筛选直接注解了,哦吼,还是报错。看来不是参数的问题。最后定位到是有奇怪的字符或者是不规范的字符:经过测试,发现是这个小赤佬:把这个分号删掉,语句就能正常执行了。得,总结一下:xml

2022-05-25 09:48:13 887 2

原创 Kafka-详细解析+案件分析+操作指令

1.kafka-消息中间件1.常用消息中间件ActiveMQRabbitMQRocketMQ(阿里)KafkaRedis2.消息中间件(MQ)作用?异步调用同步变异步;一人输入,输入多人处理应用解耦提供基于数据的接口层;流量削峰缓解瞬时高流量压力3.消息中间件工作模式:P2P(一对一)Pub/Sub(一对多,相当于广播)What Kafka?1.kafka简介Kafka是一种高吞吐量的分布式发布-订阅消息系统,专为超高吞吐量的实时日志采集

2020-08-20 01:20:10 628

原创 Python-pip配置国内镜像源

Python-pip配置国内镜像源推荐的国内镜像站[ 个人推荐清华大学pypi镜像站(https://mirrors.tuna.tsinghua.edu.cn/help/pypi/),每五分钟同步一次,资源丰富,下载速度很快 ] :清华大学:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/豆瓣:http://pypi.douban.com/simple/临时使用国内镜像源进行 pi

2020-08-18 18:38:19 22503

原创 Kafka-安装教程(详细步骤)

Kafka安装(详细步骤)注意,须有前置环境:zookeeper1.资源获取链接: https://pan.baidu.com/s/1K0-Vy92yMctwFxw_jLoP2A提取码: q7412.解压并移动安装包tar -zxf /opt/kafka_2.11-2.0.0.tgz//建议将所有软件移动至统一目录下mv kafka_2.11-2.0.0 /opt/soft/kafka2113.修改包下相关配置文件#进入config目录,并修改server文件cd /opt/soft

2020-08-18 09:07:29 4038 1

原创 RDD、Dataset、DataFrame-对比分析+相互转化

RDD、Dataset、DataFrame 相互转换1.三者之间好既有区别,也有联系优点缺点RDD(关注数据本身)1.内置很多函数操作,group,map,filter 等,方便处理结构化或非结构化数据2.面向对象编程,直接存储的 java 对象,类型转化也安全1.由于它基本和 hadoop 一样万能的,因此没有针对特殊场景的优化,比如对于结构化数据处理相对于 sql 来比非常麻烦2.默认采用的是 java 序列号方式,序列化结果比较大,而且数据存储在 java 堆内存中,导致

2020-08-17 20:20:30 291

原创 log4j-简化控制台输出信息-精简配置

log4j-简化控制台输出信息-精简配置本设置仅实现了:​ 舍去控制台红字信息log4j.rootLogger=ERROR,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d %p [%-20c] - %m%nl

2020-08-17 19:50:22 477

原创 Python-Anaconda3安装以及Jupyter和pyspark集成流程(详细步骤)

Anaconda3安装以及Jupyter和pyspark集成流程(详细步骤)需要安装前置环境 spark(因为安装各种文件的路径较为分散,所以最好一次安装成功,否则会有许多残留文件)1.获取资源​ 该文件为 xx.sh 脚本文件​ 链接: https://pan.baidu.com/s/1K4raRnF-Hlu8tu7ciXbv5g​ 提取码: zsea2.配置spark的环境变量,并激活(之前因为spark的启动命令与hadoop的启动命令相同,所以没有配置,现在需要添上)vi /etc/

2020-08-17 19:42:34 493

原创 Flume-原理详解+参数详解+案例演示

What Flume?Flume 简介:Flume用于将多种来源的日志以流的方式传输至Hadoop或者其它目的地(一种可靠、可用的高效分布式数据收集服务)Flume拥有基于数据流上的简单灵活架构,支持容错、故障转移与恢复批处理:处理离线数据,冷数据。单个处理数据量大,处理速度比流慢。流处理:在线,实时产生的数据。单次处理的数据量小,但处理速度更快。Flume 架构:Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink),为了保证传输过程一定成

2020-08-17 19:25:28 889

原创 Flume--Flume安装+nc测试

Flume安装教程1.获取资源链接: https://pan.baidu.com/s/10fpZ0Iq2G96Z6PdEgzTAHw提取码: gx8b2.解压并移动 flume 安装包tar -zxf flume-ng-1.6.0-cdh5.14.2.tar.gzmv apache-flume-1.6.0-cdh5.14.2-bin/ soft/flume1603.修改包下相关配置文件#进入conf目录cd /opt/soft/flume160/conf#复制env备份文件,形成正式

2020-08-17 08:37:12 646

原创 Saprk-简介+概念理解+架构+启动程序+弹性分布式数据集

Why Saprk?MapReduce编程模型的局限性1.繁杂​ 仅仅map和reduce两个操作,复杂的逻辑需要大量的样板代码(太多重复性代码),开发比较复杂2.处理效率低​ map结果落盘,reduce写HDFS,多个map通过HDFS交互数据​ 不合适迭代处理,交互式处理和流式处理Spark相比之下的优势​ 1.jobj中间的输出结果可以保存在内存中,无需读写HDFS(基于内存处理)​ 2.处理速度比mapreduce快乐近10倍(实际差距)Spark的优势​ 1.速度快(内存处

2020-08-05 12:04:18 301

原创 java-scala异常分类:

java异常分类:主类:Throwable子类:error(内部错误/资源耗尽,基本不能处理)子类:Execption(运行时异常、检查异常)运行异常:RuntimeException1.空指针 NullPointerException2.参数不匹配 ClassCastException3.数组越界 …检查异常:CheckedException1.IO读文件异常 IOException2.SQLException …如何处理:throw(方法内)/throws(方法名后) 不处理,

2020-08-03 20:07:42 461

原创 Hive-简介+架构+特点+数据结构+表的简单操作语句

hive 简介基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表(hive本身不存数据,只存元数据【字段名等】)提供类 sql 查询语言HQL(底层是将Hql语句转化为MapReduce)可以让更多人使用HadoopHive元数据管理记录数据仓库中模型的定义、各层级间的映射关系存储在关系数据库中Hcatalog(将Hive的元数据共享给其他应用程序)why hive?优势与劣势提供了一个简单的优化模型HQL类sql语法,简化MR开发支持在不同的计

2020-07-16 08:16:08 231

原创 hive 常用函数汇总及详细解释

数学函数round(double a,int b)//对 a 四舍五入round(6.4) = 6 round(6.5) = 7 round(-6.5) = 7 //对 a 保留 b 位小数,并四舍五入round(3.1415926,3)=3.142floor(double a)//对 a 向下取整floor(3.1) = 3floor(3.9) = 3floor(-3.5) = -4ceil(double a)/ceiling(double a)//对 a 向上取整

2020-06-18 02:27:34 577

原创 Hive 新建分区异常处理:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

今天在测试 hive 相关语句时,发生了一个非常奇妙的错误,就是在我创建分区时,突然出现了一个异常:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.这让我有些猝不及防,毕竟以前没遇到过,于是我便在网上寻求解决方法,同是天涯沦落人。**方法一:**降低Mysql-connect jar包的版本,将它降低到5.1.27,而我正好用的是5.1.38;虽然搞不懂他说的原理,毕竟他成功了,试试,好

2020-06-11 01:07:33 5238 2

原创 Zookeeper 安装+ Hive 安装(安装过程中异常处理:Column length too big for column PARAM_VALUE)

zookeeper 为 hive 的前置安装,本次安装主要是搭建 hive 环境安装前,请确认 Hadoop 集群是否安装完成,以及 MySQL 数据库是否安装完成。Hadoop:Hadoop安装MySQL:MySQL安装将本次所需的安装包下载至个人的安装目录(我的是 /opt/)zookeeper 版本:3.4.5hive 版本:1.1.0安装包链接:https://pan.baidu.com/s/1PcoA34fXvyD6pdDIQqb3cw提取码:cnxpZookeeper 安

2020-06-09 23:44:53 297 2

原创 windows 中搭建 hadoop环境

前言之前我的 hadoop 环境是搭建在虚拟机(linux系统)中,所以只有在虚拟机中才能访问 hadoop ,现在我需要在 windows 环境下的 idea 中直接获取 hadoop 中的数据,在需要在 windows 中搭建一个 hadoop 环境即可,而不需要配置 hadoop 各种配置,更不需要启动其各种进程。实际的搭建流程将之前在虚拟机上搭建 hadoop 的安装包拖至 windows 的安装目录下;直接解压安装包,即可得到 hadoop 的环境;问题:这一步有可能因为解压软

2020-06-05 02:17:39 280

原创 Hadoop-特点+架构+HDFS详解(文件读写流程)+MapReduce详解(架构+原理)+Yarn详解(工作机制)

hadoop+hdfs+mapreduce+yarn

2020-06-04 18:26:35 730

原创 Hadoop单机测试数据吞吐量

hadoop自身就有测试方法:测试写入数据:测试代码:hadoop jar /opt//soft/hadoop260/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-cdh5.14.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128Mjar:启动自带的 jar 文件测试write:测试写入数据性能nrFiles:测试文件的个数fileSize:单个测试文

2020-06-04 12:29:48 615

原创 Elasticsearch 基础索引操作

1. 索引操作创建索引和类型(相当于数据库和表) Put http://localhost:9200/索引名{ "setting":{ "index":{ "number_of_shards":2, "number_of_replicas":1 } }, "mappings":{ "userinfos":{ "properties":{ "userid":{ "type":"string" }, "username":{

2020-06-02 17:33:50 163

原创 Hadoop 安装(详细步骤)

前期操作下载 hadoop 安装包至安装目录安装目录:/opthadoop版本:hadoop-2.6.0-cdh5.14.2.tar.gz解压安装包至软件目录(最好更名,以便之后方便配置文件)tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260进入文件,准备配置因为需要用到 java 的路径,可以代码查找,并复制至剪贴板备用cd /opt/soft/hadoop260/e

2020-06-01 15:29:21 8467

原创 HTML缩略语法(快速生成html页面)

嵌套关系(父套子):>div>ul>li (tab)并列关系:+div+div (tab)生成多个相同元素:*ul>li*3 (tab)元素分组:()(div>span)+(div>a) (tab)添加 class 属性:. 属性名div.body (tab)添加 id 属性:#属性名div#class_id (tab)添加 非class 属性:[ 标签=‘属性名’ ]div[name='box.

2020-06-01 08:26:50 431

原创 ideal 快速打包(胖包+瘦包)

仅需更改pom文件中的 build 的标签内容,然后再常规打包就行,之后 target 文件夹中会出现 胖+瘦 两个包。以下为参考的 配置文件:<build> <finalName>mylogpack</finalName> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <versio

2020-05-28 21:48:50 895

原创 Logstash应用(安装+简单数据解析)

安装Logstash首先预先准备好你的 logstash 安装包,并打入 linux 系统中例如:我是将 logstash-6.2.2.tar.gz 导入 /opt/ 文件夹中解压 logstash 包,并将其移动到我的软件库中tar -zxf logstash-6.2.2.tar.gzmv logstash-6.2.2 soft/logstash622到此,软件安装成功,非常简单。用Logstash解析简单数据首先进入文件bin目录cd /opt/soft/logstash622

2020-05-26 23:34:13 418

原创 linux安装elasticsearch 并网页键入验证

首先将所需安装包拖至安装文件夹中(正常是 opt 文件夹)解压安装包,移动至相应目录下(我的安装文件统一存至 soft 文件夹中),最好将文件更名,便于配置tar -zxf elasticsearch-6.2.2.tar.gzmv elasticsearch-6.2.2 soft/elasticsearch622因为 elasticsearch 不能在root用户下启动,切换用户,没有的可以新建一个。useradd hxpasswd hx//输入两次密码4. 修改相关文件配.

2020-05-26 08:53:09 208

原创 正则表达式的贪婪与非贪婪模式的简单(易懂)介绍

什么是贪婪模式和非贪婪模式贪婪模式(默认模式):在正则表达可以成功匹配的前提下,对于表达式中的不确定项,尽可能多的匹配元素,使得匹配到的元素尽可能多。非贪婪模式(也叫懒惰模式):在正则表达可以成功匹配的前提下,对于表达式中的不确定项,尽可能少的匹配元素,使得匹配到的元素尽可能少。演示介绍如图,为贪婪模式的匹配结果:如图正则是: af 和 fa 之间可以有{0,正无穷}个非空字符元素可以看到,第一个 af 和最后一个 fa 之间还有一个 fa ,本可以提前结束匹配,由于正则默认是贪婪模式,所

2020-05-15 08:34:03 437

原创 正则表达式常用字符归纳

正则表达式在以后会经常使用,为了避免忘记,我今天把常用的归纳一下,以备以后忘了,可以查阅回顾,也将它分享给大家,有需要的,大家可以自行查看,谢谢。1.正则的功能:检索,匹配,提取2.常用基本元素3.常用特殊元素...

2020-05-14 22:47:20 177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除