Lv_Hulk-CSDN博客

原创大数据常见错误及解决方案

大数据常见错误及解决方案（转载）1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can’t assign requested address: Service ‘sparkDriver’ failed after 16 retries!解决方法：add export SPARK_LOCAL_IP=“127.0.0.1” to spark-env.sh2、java Kafka producer error:ERROR kafka.util

2021-02-16 17:15:35 9827 1

原创一文搞定hive的参数配置

hive 配置参数说明背景：由于新搭建的集群不稳定，数据仓库hive会报各种莫名其妙的的错误，有一些错误可以通过加参数完美解决掉，废话少说，直接上干货！1.hive.exec.mode.local.auto决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行）默认值：true2.hive.exec.mode.local.auto.inputbytes.max如果 hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地

2020-07-11 16:32:13 1325

原创 Hive批量删除一段时间分区和动态分区更新数据

Hive批量删除一段时间分区和动态分区更新数据1.hive动态分区-- 批量删除分区数据alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >="20191101",dt <='20191130')-- 开启动态分区SET hive.exec.dynamic.partition=true; --开启动态分区，默认是falseSET hive.exec.dynamic.partition.mode=non

2020-07-05 15:45:41 4992

原创 hive锁的问题

hive锁的问题最近在insert into 插入数据的时候遇到了hive锁表的问题，下面是报错信息，原因就是一张hive的临时表被锁造成报错。1.Hive中定义了两种锁的模式：共享锁（S）和排它锁（X），顾名思义，多个共享锁(S)可以同时获取，但是排它锁(X)会阻塞其它所有锁。如果select一张表，这张表则会进入shared模式，增加、插入、删除、修改数据和修改表名等操作都会在shared锁被释放之后再执行，会一直等待。如果插入、删除、修改数据则进入Exclusive锁模式，进入排他锁模式之

2020-06-27 22:49:33 1048

转载数据中台之OneData体系

数据中台之OneData体系知其然知其所以然，本篇的博文总结和自己公司现在用到的数据中台的OneData的体系类似，使用的情景也很相似，所以我就把它放到自己的博文里，不仅自己可以重温一下，同时也可以帮到那些同样使用OneData数据中台的同学。背景随着公司业务的发展，频繁迭代和跨部门的垂直业务单元

2020-06-14 14:57:34 2662

原创踩过数据仓库hive的坑：hive设置严格模式

踩过数据仓库hive的坑：hive设置严格模式hive提供了一个严格模式，可以防止用户执行那些可能产生意想不到的不好的效果的查询，也可以很好的防止数据倾斜。即某些查询在严格模式下无法执行。通过设置hive.mapred.mode的值为strict，可禁止以下3种类型的查询。1）带有分区的表的查询如果在一个分区表执行hive，除非where语句中包含分区字段过滤条件来显示数据范围，否则不允许执行。换句话说，就是用户不允许扫描所有的分区。进行这个限制的原因是，通常分区表都拥有非常大的数据集，而且数据增

2020-06-14 14:31:33 1983

原创让你一步步成为运维专家之各种运维脚本

让你一步步成为运维专家之各种运维脚本最近想做一个自动化运维的脚本，就整理一些资料，分享出来，一起共勉！运维脚本参考：https://github.com/SwordfallYeung/BigData_AutomaticDeploy自动化部署：https://gitee.com/lucky110100/sloth/tree/masterLinux命令行与shell脚本编程大全案例：https://github.com/fengyuhetao/shellshell常用分析命令和脚本：https://g

2020-05-14 21:28:56 3246

原创实用干货：详细Linux笔记

Linux笔记1.列出几个主要的 Linux distributions 发行者网址：• Red Hat: http://www.redhat.com• Fedora: http://fedora.redhat.com• Mandriva: http://www.mandriva.com• Novell SuSE: http://www.novell.com/linux/suse/• ...

2020-05-04 09:12:40 999

原创每个人都能看懂de图文详述排序算法

排序算法概述目录冒泡排序选择排序插入排序希尔排序归并排序快速排序堆排序计数排序桶排序基数排序基数排序 vs 计数排序 vs 桶排序名词解释：n：数据规模k：“桶”的个数In-place：占用常数内存，不占用额外内存Out-place：占用额外内存稳定性：排序后 2 个相等键值的顺序和排序之前它们的顺序相同冒泡排序冒泡排序（Bubble Sort）...

2020-05-04 08:40:11 455

原创基本算法之概率算法

基本算法之概率算法一.概率算法的基本思想大致执行步骤如下：1.将问题转化为相应的几何图形S，S的面积容易计算，问题的结果往往对应几何图形中的某一部分。2.然后，向几何图形中随机撒点。3.统计几何图形S和S1中的点数，根据S和S1面积的关系及图形中的点数来计算得到的结果。4.判断上述结果是否在需要的精度之内，如果未达到精度则执行步骤2；如果达到精度，则输出结果。概率算法大致分为4种形式...

2020-04-19 00:02:08 6415

原创基本算法之分治算法

基本算法之分治算法一.分治算法的基本思想分治算法的基本思想是将一个计算复杂的问题分为规模较小、计算简单的小问题求解，然后综合各个小问题，得到最终的答案。大致执行的流程如下：1.对于一个规模为N的问题，若该问题比较容易解决（比如规模N较小），则直接解决；否则执行下面的步骤。2.将该问题分解为M的个规模的小问题，这些子问题相互独立，并且与原问题的...

2020-04-18 23:11:23 409

原创基本算法之递归算法

基本算法之递归算法一.递归算法的基本思想递归算法即在程序中不断反复调用自身来达到求解问题的方法。此处的重点是调用自身，这就要求待解决的问题能够分解为相同问题的一个子问题。这样通过多次调用，就可以完成求解。递归调用是一个方法在其方法体内调用其自身方法的调用方式。这种方法也称为递归方法。在递归方法中，主调方法又是被调方法。执行递归方法将反复调用其自身。每调用一次就进入新的一层。在编写递归方法时，...

2020-04-16 23:11:46 892

原创基本算法之递推算法

基本算法之递推算法一.递推算法基本思想递推算法是一种理性思维模式的代表，其根据已有的数据和关系，逐步推导而得到结果。其大致步骤如下:1.根据已知结果和关系，求解中间结果。2.判定是否达到要求，如果没有达到，则继续根据已知结果和关系求解中间结果；如果满足要求，则表示找到一个正确的答案。**小技巧：**递推算法往往需要用户知道答案和问题之间的关系。在许多数学问题中，都有着明确的计算公式可以遵...

2020-04-15 22:40:26 1537

原创基本算法之穷举算法

基本算法之穷举算法一.穷举算法的基本思想穷举算法的基本思想就是从所有的可能的情况中搜索正确的答案，其执行步骤大致如下：1.对于一种可能的情况，计算其结果；2.判断结果是否满足要求，如果不满足则执行第1步来搜索下一个可能的情况；如果满足要求，则表示寻找到一个正确的答案。注意事项：在使用穷举算法时，需要明确问题答案的范围，这样才能在指定的范围内搜索答案，指定范围之后，就可以使用循环语句和条件...

2020-04-14 22:15:06 2050

原创 Hive面试篇之Hive与Hbase的区别

Hive面试篇之Hive与Hbase的区别使用方面区别Hive是一个构建在Hadoop平台上的数据仓库，可以将结构化的数据文件映射为一张数据库表。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化成Map/Reduce。HBase 是基于HDFS平台的Key/Value类型的NoSql数据库，是一个分布式、可扩展、存储海量数据的数据库，并且...

2020-04-11 22:18:48 370

原创 hive中的模糊匹配之like的用法

hive中的模糊匹配之like的用法现在看一段Hsql,执行时会报错吗？select * from ods.ods_sjc_events_rtwhere event like '%OCR%';答案是显而易见的，这样的写法在MySQL中是不会报错的，但在hive中就会报错，由于hive会将一些特殊字符作转义处理，导致某些语句无法通过传统sql语法实现。例如要筛选某字段中所有带’OCR...

2020-02-25 16:20:50 49300 2

原创 PyCharm 常用快捷键

PyCharm 常用快捷键CTRL+ALT+SPACE 快速导入任意类CTRL+SHIFT+ENTER 代码补全HIFT+F1 查看外部文档CTRL+Q 快速查看文档CTRL+P 参考信息（在方法中调用的参数）CTRL+MOUSE OVER CODE 基本信息CTRL+F1 显示错误或警告的描述CTRL+INSERT 生成代码CTRL+O 重载方法CTRL+ALT+T 包裹...

2020-02-22 14:35:44 340

原创 Linux设置定时任务(crontab)

Linux设置定时任务(crontab)1.crontab命令概述crontab命令用于设置周期性被执行的指令,并将其存放在/etc/crontab文件,以供之后读取和执行。cron系统调度进程,可以使用它在每天的非高峰负荷段运行作业,或在一周或一月中不同时段运行,cron是系统主要的调度进程,可以无需人工干预的情况下运行作业。检查是否安装了crontab，如果提示未安装请自行安装，cro...

2020-01-16 22:40:00 1512

原创 hive集群中间（临时）表定时清理shell脚本

hive集群中间（临时）表定时清理shell脚本#!/bin/sh#######hive集群中间表定时清理脚本################databases="odb pdb"#####hive集群中所有库库名stime=`date +%s`#记录当前时间for db in $databasesdo#遍历所有库echo "=========================...

2020-01-16 22:25:54 963

原创 Linux系统中常用命令行命令、快捷键、创建长路径的快捷键

Linux系统中常用命令行命令、快捷键、创建长路径的快捷键1.常用Linux命令:1.1 文件和目录:cd /home 进入 ‘/home’ 目录cd … 返回上一级目录cd …/… 返回上两级目录cd - ...

2020-01-16 22:07:55 1356

原创 hive sql常用技巧

1.多行合并多行合并常用于做区间统计，通过定义一定的金额区级，将上亿的记录降维为不同区间内总数。概括来说就是多映射到一。典型场景：基于用户交易天流水，计算每天不同金额段的金额笔数。如用户的天交易流水表结构如上，需要计算出交易额在0-100，100-200，200-300，大于300几个区级的笔数,CREATE VIEW t_deal_tmp_view_1 ASSELECT CAS...

2020-01-01 22:21:02 455

转载 Tomcat配置和优化

Tomcat配置和优化Tomcat 服务器是一个免费的开放源代码的Web 应用服务器，属于轻量级应用服务器，在中小型系统和并发访问用户不是很多的场合下被普遍使用，是开发和调试JSP 程序的首选。对于一个初学者来说，可以这样认为，当在一台机器上配置好Apache 服务器，可利用它响应HTML（标准通用标记语言下...

2019-12-29 15:07:12 456

原创 hive中的空值处理

hive中的空值处理用Sqoop往MySQL同步数据时，由于hdfs存储的数据中有null值或’’，导致同步数据失败。主要是hive sql中的空值造成的，所以今天就说一下怎么解决这个问题。一.hive中空值分两种（1）NULLhive中null实际在HDFS中默认存储为’\N’，通过查询显示的是’NULL’。这时如果查询为空值的字段可通过语句：aaa is null 或者 aaa =’...

2019-12-29 10:58:19 20031

原创 MySQL FORMAT函数简介

MySQL FORMAT函数简介有时，您使用表达式或聚合函数(如AVG)来计算数据库中的值，例如库存周转率，产品的平均价格，平均发票值等。表达式的结果是十进制数，并带有许多小数位。要格式化这些数字，您可以使用具有以下语法的FORMAT函数：FOMRAT(N,D,locale);SQLFORMAT函数将数字N格式化为格式，如"#,###,###.##"，舍入到D位小数。它返回一个值作为字符串...

2019-12-28 21:55:57 1200

原创巧用 CASE WHEN THEN END

巧用 CASE WHEN THEN END一.CASE WHEN THEN END结构有两种书写方式1. 简单CASE WHEN函数：CASE SCORE WHEN 'A' THEN '优' ELSE '不及格' ENDCASE SCORE WHEN 'B' THEN '良' ELSE '不及格' ENDCASE SCORE WHEN 'C' THEN '中' ELSE '不及格' EN...

2019-12-28 16:22:23 951 1

原创 hive调优

hive调优一.针对于Hive内部调优的一些方式01.请慎重使用COUNT(DISTINCT column)*原因：*distinct会将b列所有的数据保存到内存中，形成一个类似hash的结构，速度是十分的块；但是在大数据背景下，因为b列所有的值都会形成以key值，极有可能发生OOM；*解决方案：*可以考虑使用Group By 或者 ROW_NUMBER() OVER(PARTITION ...

2019-12-25 22:26:24 622

转载技术分享：浅谈滴滴派单算法

浅谈滴滴派单算法原创：王犇刘春阳徐哲滴滴技术桔妹导读：说到滴滴的派单算法，大家可能感觉到既神秘又好奇，从出租车扬召到司机在滴滴平台抢单最后到平台派单，大家今天的出行体验已经发生了翻天覆地的变化，面对着每天数千万的呼叫，滴滴的派单算法一直在持续努力让更多人打到车，本篇文章会着重介绍我们是如何分析和建模这个问题，并且这其中面临了怎样的算法挑战，以及介绍一些我们常用的派单算法，这些算法能够...

2019-12-25 21:40:12 2345

原创 Java技术栈

Java技术栈我要修仙！！！我要修仙！！！我要修仙！！！重要的事情说三遍！ ...

2019-07-18 21:40:15 544

原创处理Tomcat日志catalina.out日志文件过大的问题

处理Tomcat日志catalina.out日志文件过大的问题最近遇到一个Tomcat日志catalina.out日志文件过大的问题，现总结如下：本人用第二种方法解决问题，本人认为第二种更简单容易操作！一、采用cronlolog工具对日志拆分的方式处理该问题1、下载cronolog工具，我下载的版本是cronolog-1.6.2（yum安装:yum install cronolog）2、...

2019-06-29 16:19:51 614

原创 MySQL：日期函数和时间函数的总结

一、MySQL 获得当前日期时间函数1.1 获得当前日期+时间（date + time）函数：now()mysql> select now();±--------------------+| now() |±--------------------+| 2008-08-08 22:20:46 |±--------------------+...

2019-06-02 11:03:57 1090

原创 Python3安装bs4报错及解决方案

Python3安装bs4报错及解决方案吐血分享！！！学习网络爬虫的都知道，除了使用正则表达式以外，我们还会经常使用一种beautifulsoup的工具，这个工具很好的分析网页结构，使得更好的爬取，但是使用beautifulsoup的，就会用到bs4这个包，这个是第三方库，我们需要自己安装，自己安装的过程中容易报错，报错如下：报错：ModuleNotFoundError: No module ...

2019-05-04 21:04:20 3681 2

原创 Kafka在zookeeper中的存储

Kafka在zookeeper中的存储一、Kafka在zookeeper中存储结构图二、分析2.1　topic注册信息/brokers/topics/[topic] :存储某个topic的partitions所有分配信息[zk: localhost:2181(CONNECTED) 1] get /brokers/topics/topic2Schema:{ "vers...

2019-03-19 18:05:22 216

原创 Kafka的安装

Kafka的安装一、下载下载地址：http://kafka.apache.org/downloads.htmlhttp://mirrors.hust.edu.cn/apache/二、安装前提（zookeeper安装）参考http://www.cnblogs.com/qingyunzong/p/8634335.html#_label4_0三、安装此处使用版本为kafka_2.11-0...

2019-03-19 17:55:53 244

原创 Kafka的高可用

Kafka的高可用一、高可用的由来1.1　为何需要Replication　　在Kafka在0.8以前的版本中，是没有Replication的，一旦某一个Broker宕机，则其上所有的Partition数据都不可被消费，这与Kafka数据持久性及Delivery Guarantee的设计目标相悖。同时Producer都不能再将数据存于这些Partition中。　　如果Producer使用同步...

2019-03-19 17:47:06 231

原创 Kafka的架构

Kafka的架构一、Kafka的架构如上图所示，一个典型的Kafka集群中包含若干Producer（可以是web前端产生的Page View，或者是服务器日志，系统CPU、Memory等），若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高），若干Consumer Group，以及一个Zookeeper集群。Kafka通过Zookeeper管理集群配置，选举l...

2019-03-19 17:42:29 180

原创 Kafka的简介

Kafka的简介一、简介1.1　概述Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是：日志收集系统和消息系统。Kafka主要设计目标如下：...

2019-03-19 17:38:37 841

原创 Flume的配置方式

Flume的配置方式一、单一代理流配置1.1　官网介绍http://flume.apache.org/FlumeUserGuide.html#avro-source通过一个通道将来源和接收器链接。需要列出源，接收器和通道，为给定的代理，然后指向源和接收器及通道。一个源的实例可以指定多个通道，但只能指定一个接收器实例。格式如下：实例解析：一个代理名为agent_foo，外部通过avro客...

2019-03-19 17:15:24 432

原创 Flume的Source类型

Flume的Source类型一、概述官方文档介绍：http://flume.apache.org/FlumeUserGuide.html#flume-sources二、Flume Sources 描述2.1　Avro Source2.1.1　介绍监听Avro端口，从Avro client streams接收events。当与另一个（前一跳）Flume agent内置的Avro...

2019-03-19 17:03:12 1242 1

原创 Flume的基础介绍

Flume的基础介绍一、背景Hadoop业务的整体开发流程：　　从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步.许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关...

2019-03-19 16:56:55 265

原创 Redis的介绍、安装、数据类型、keys命令

Redis(一）redis的介绍1) 什么是redisc语言编写的键值非关系型数据库。主要用于高速访问的内容缓存,redis也可以实现持久化，支持事务操作。常用数据类型: string(字符类型),hash(散列类型),lists(列表类型),set(集合类型),sortedSet(有序集合)。2) 背景3) redis应用场景缓存（数据查询、短连接、新闻内容、商品内容等等）。（...

2019-03-19 12:58:33 770

空空如也

空空如也