欲乘风，潇潇雨-CSDN博客

原创 Hadoop HA模式切换

Hadoop ha模式下主节点的主备切换

2023-08-29 11:03:21 841

原创 Sparkthrift Server 启动命令调优及问题报错解决

文章目录1、sparkthrift Server 启动命令2、实际生产过程中的报错解决2.1、Kryo serialization failed: Buffer overflow. Available: 0, required: 2428400. To avoid this, increase spark.kryoserializer.buffer.max value2.2、java.lang.OutOfMemoryError: GC overhead limit exceeded2.3、Job abort

2023-03-15 16:27:00 2055 1

原创 sqoop 数据同步方案理解+问题解决

sqoop 数据同步方案理解+问题解决

2023-02-11 11:00:40 1994 3

原创并发、并行、吞吐量、延迟、响应时间含义理解

并发、并行、吞吐量、延迟、响应时间

2023-02-11 10:27:15 1781

原创 CDH中某一结点任务异常，节点服务重启失败报错：No space left on device

cdh运维

2022-12-10 09:53:44 896

原创 Sparkthrift-sql执行报错-File does not exist: hdfs://xxx/t_bd_materialgroup/xxx.parquet

spark

2022-11-26 14:55:38 1757

原创【问题探讨】exists & in 使用效率探究

exists 和 in 执行效率的问题探讨

2022-11-12 11:01:00 1184

原创【持续更新】Spark Submit命令配置参数详解

spark submit 参数

2022-11-10 12:30:20 5808

原创 Spark 连接 Mongodb 批量读取数据

spark 读取 mongodb 数据

2022-10-29 16:13:47 2674 1

原创 FineWord试用，闪退、报警等bug问题解决

Fineword试用bug问题解决

2022-10-29 10:23:16 1183

原创 Spark 链接 Mongodb 报错：java.lang.NoSuchFieldError: UNSPECIFIED

spark connect mongodb

2022-08-31 10:06:01 1147 2

原创项目上线问题——（本地）内网可以访问，但是外网调用接口均为跨域

项目部署，跨域问题

2022-07-22 11:46:29 2940 5

原创 nohup 命令的简单理解

shell 命令的简单拓展

2022-06-29 14:16:54 12676

原创 sqoop-mysql数据导出-报错：java.math.BigInteger cannot be cast to java.lang.Long

今天需要一台电脑的mysql数据库中导出一张表的数据，遇到了一个问题，我觉得值得记录一下。sqoop 导入方式为：mysql -> hdfs （导入文件系统，不是hive）。下面展示sqoop job 命令：#!/bin/bash#Set the RDBMS connection paramsrdbms_connstr="jdbc:mysql://xxx.xxx.xxx.xxx:3306/tablespace"rdbms_username="root"rdbms_pwd="mysql"

2022-05-27 10:13:56 605

原创 java问题解决-oracle.jdbc.OracleDatabaseException: ORA-00911: 无效字符

今天遇到一个恶心的bug，记录一下，长个见识，下次注意。上代码：一段查询语句，报错无效字符；语句已经验证了三四遍，没有问题，报错sql也截出来在oracle执行了，没有问题，顺滑的出结果了。一开始以为是参数的问题：以为是参数没带进去；增加了参数的类型描述，换了参数名，还是不行，崩溃。最后我直接把两个参数筛选直接注解了，哦吼，还是报错。看来不是参数的问题。最后定位到是有奇怪的字符或者是不规范的字符：经过测试，发现是这个小赤佬：把这个分号删掉，语句就能正常执行了。得，总结一下：xml

2022-05-25 09:48:13 887 2

原创 Kafka-详细解析+案件分析+操作指令

1.kafka-消息中间件1.常用消息中间件ActiveMQRabbitMQRocketMQ（阿里）KafkaRedis2.消息中间件（MQ）作用？异步调用同步变异步；一人输入，输入多人处理应用解耦提供基于数据的接口层；流量削峰缓解瞬时高流量压力3.消息中间件工作模式：P2P（一对一）Pub/Sub（一对多，相当于广播）What Kafka？1.kafka简介Kafka是一种高吞吐量的分布式发布-订阅消息系统，专为超高吞吐量的实时日志采集

2020-08-20 01:20:10 628

原创 Python-pip配置国内镜像源

Python-pip配置国内镜像源推荐的国内镜像站[ 个人推荐清华大学pypi镜像站(https://mirrors.tuna.tsinghua.edu.cn/help/pypi/)，每五分钟同步一次，资源丰富，下载速度很快 ] :清华大学：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.com/pypi/simple/豆瓣：http://pypi.douban.com/simple/临时使用国内镜像源进行 pi

2020-08-18 18:38:19 22503

原创 Kafka-安装教程（详细步骤）

Kafka安装（详细步骤）注意，须有前置环境：zookeeper1.资源获取链接: https://pan.baidu.com/s/1K0-Vy92yMctwFxw_jLoP2A提取码: q7412.解压并移动安装包tar -zxf /opt/kafka_2.11-2.0.0.tgz//建议将所有软件移动至统一目录下mv kafka_2.11-2.0.0 /opt/soft/kafka2113.修改包下相关配置文件#进入config目录，并修改server文件cd /opt/soft

2020-08-18 09:07:29 4038 1

原创 RDD、Dataset、DataFrame-对比分析+相互转化

RDD、Dataset、DataFrame 相互转换1.三者之间好既有区别，也有联系优点缺点RDD（关注数据本身）1.内置很多函数操作，group，map，filter 等，方便处理结构化或非结构化数据2.面向对象编程，直接存储的 java 对象，类型转化也安全1.由于它基本和 hadoop 一样万能的，因此没有针对特殊场景的优化，比如对于结构化数据处理相对于 sql 来比非常麻烦2.默认采用的是 java 序列号方式，序列化结果比较大，而且数据存储在 java 堆内存中，导致

2020-08-17 20:20:30 291

原创 log4j-简化控制台输出信息-精简配置

log4j-简化控制台输出信息-精简配置本设置仅实现了：舍去控制台红字信息log4j.rootLogger=ERROR,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d %p [%-20c] - %m%nl

2020-08-17 19:50:22 477

原创 Python-Anaconda3安装以及Jupyter和pyspark集成流程（详细步骤）

Anaconda3安装以及Jupyter和pyspark集成流程（详细步骤）需要安装前置环境 spark（因为安装各种文件的路径较为分散，所以最好一次安装成功，否则会有许多残留文件）1.获取资源该文件为 xx.sh 脚本文件链接: https://pan.baidu.com/s/1K4raRnF-Hlu8tu7ciXbv5g 提取码: zsea2.配置spark的环境变量，并激活（之前因为spark的启动命令与hadoop的启动命令相同，所以没有配置，现在需要添上）vi /etc/

2020-08-17 19:42:34 493

原创 Flume-原理详解+参数详解+案例演示

What Flume？Flume 简介：Flume用于将多种来源的日志以流的方式传输至Hadoop或者其它目的地（一种可靠、可用的高效分布式数据收集服务）Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复批处理：处理离线数据，冷数据。单个处理数据量大，处理速度比流慢。流处理：在线，实时产生的数据。单次处理的数据量小，但处理速度更快。Flume 架构：Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)，为了保证传输过程一定成

2020-08-17 19:25:28 889

原创 Flume--Flume安装+nc测试

Flume安装教程1.获取资源链接: https://pan.baidu.com/s/10fpZ0Iq2G96Z6PdEgzTAHw提取码: gx8b2.解压并移动 flume 安装包tar -zxf flume-ng-1.6.0-cdh5.14.2.tar.gzmv apache-flume-1.6.0-cdh5.14.2-bin/ soft/flume1603.修改包下相关配置文件#进入conf目录cd /opt/soft/flume160/conf#复制env备份文件，形成正式

2020-08-17 08:37:12 646

原创 Saprk-简介+概念理解+架构+启动程序+弹性分布式数据集

Why Saprk?MapReduce编程模型的局限性1.繁杂仅仅map和reduce两个操作，复杂的逻辑需要大量的样板代码（太多重复性代码），开发比较复杂2.处理效率低 map结果落盘，reduce写HDFS，多个map通过HDFS交互数据不合适迭代处理，交互式处理和流式处理Spark相比之下的优势 1.jobj中间的输出结果可以保存在内存中，无需读写HDFS（基于内存处理） 2.处理速度比mapreduce快乐近10倍(实际差距)Spark的优势 1.速度快（内存处

2020-08-05 12:04:18 301

原创 java-scala异常分类：

java异常分类：主类：Throwable子类：error（内部错误/资源耗尽，基本不能处理）子类：Execption（运行时异常、检查异常）运行异常：RuntimeException1.空指针 NullPointerException2.参数不匹配 ClassCastException3.数组越界 …检查异常：CheckedException1.IO读文件异常 IOException2.SQLException …如何处理：throw(方法内)/throws(方法名后) 不处理，

2020-08-03 20:07:42 461

原创 Hive-简介+架构+特点+数据结构+表的简单操作语句

hive 简介基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表（hive本身不存数据，只存元数据【字段名等】）提供类 sql 查询语言HQL（底层是将Hql语句转化为MapReduce）可以让更多人使用HadoopHive元数据管理记录数据仓库中模型的定义、各层级间的映射关系存储在关系数据库中Hcatalog（将Hive的元数据共享给其他应用程序）why hive?优势与劣势提供了一个简单的优化模型HQL类sql语法，简化MR开发支持在不同的计

2020-07-16 08:16:08 231

原创 hive 常用函数汇总及详细解释

数学函数round(double a,int b)//对 a 四舍五入round(6.4) = 6 round(6.5) = 7 round(-6.5) = 7 //对 a 保留 b 位小数，并四舍五入round(3.1415926,3)=3.142floor(double a)//对 a 向下取整floor(3.1) = 3floor(3.9) = 3floor(-3.5) = -4ceil(double a)/ceiling(double a)//对 a 向上取整

2020-06-18 02:27:34 577

原创 Hive 新建分区异常处理：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

今天在测试 hive 相关语句时，发生了一个非常奇妙的错误，就是在我创建分区时，突然出现了一个异常：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.这让我有些猝不及防，毕竟以前没遇到过，于是我便在网上寻求解决方法，同是天涯沦落人。**方法一：**降低Mysql-connect jar包的版本，将它降低到5.1.27，而我正好用的是5.1.38；虽然搞不懂他说的原理，毕竟他成功了，试试，好

2020-06-11 01:07:33 5238 2

空空如也

空空如也