![](https://img-blog.csdnimg.cn/20210402080341856.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 63
文章主题与问题均来自实际开发场景,只做经验分享,希望我的经验能帮助你,欢迎一起探讨大数据技术!
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
灰灰鲁伊
学不完的技术,敲不完的代码...
展开
-
Hive问题记录
Sqoop导入数据到Hive Orc表建表sqoop_import_db.bas_user_detail_country_newcreate table if not exists test.stu( name string,age int,score int,address string) stored as orc TBLPROPERTIES ('orc.compress'='SNAPPY');-- 覆盖导入参数无效,先清除再导入,或者采用分区表导入truncate table原创 2021-02-05 13:51:46 · 126 阅读 · 0 评论 -
OLAP神器介绍之Clickhouse
Clickhouse是一个用于联机分析处理(OLAP)的列式数据库管理系统(columnar DBMS)。一个字,快!安装安装部署CentOS 步骤梳理sudo yum install yum-utilssudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_.原创 2021-01-15 14:40:15 · 223 阅读 · 0 评论 -
玩转Docker之Docker基础命令介绍
玩转Docker之Docker基础命令介绍Docker 是 PaaS 提供商 DotCloud 开源的一个基于 LXC 的高级容器引擎,源代码托管在 Github 上, 基于 Go 语言并遵从Apache2.0协议开源。文章目录玩转Docker之Docker基础命令介绍Docker三大要素安装启动服务验证镜像操作命令介绍容器操作命令介绍Docker三大要素镜像 Image类似Java类的代码文件 容器 Container类似Java类的实例对象 仓库 Repository类似存放代原创 2020-11-29 17:02:35 · 117 阅读 · 0 评论 -
常用Shell脚本小工具
日期循环#!/bin/shend="20201010"st="20200901"while [ $st -le $end ];dost_format=`date -d ${st} +%F`echo $st_format# 逻辑代码echo $stlet st=`date -d "${st} + 1days" +%Y%m%d`done原创 2020-09-18 15:02:54 · 299 阅读 · 0 评论 -
PySparkSQL 写入数据Option约束
代码def save_data(df: DataFrame): """ 保存数据 :param df: :return: """ ct = df.count() if ct == 0: print("无数据") return df.write.format("jdbc") \ .option("url", "jdbc:mysql://%s:%s/database?原创 2020-09-09 11:12:13 · 608 阅读 · 0 评论 -
Python一些比较少见的日期处理(持续更新)
# -*- coding: UTF-8 -*-import datetimefrom _datetime import datetime, timedeltadef recent_7_days(year, month, day): """ 获取最近七天时间段 :return: string """ end = datetime(year=year, month=month, day=day) st = end + timedelta(days=-6)原创 2020-09-02 09:35:23 · 136 阅读 · 0 评论 -
Airflow笔记
Airflow 已逐渐成为最流行的任务调度框架,加上本身由 Python 语言编写,对比 Azkaban 灵活性,可配置性更高Airflow官网配置参数介绍 default_args = { 'owner': 'Airflow', 'depends_on_past': False, 'email': ['airflow@example.com'], 'email_on_failure': False, 'email_on_retry': False, 'retries': 1, 'ret原创 2020-07-14 19:25:25 · 1083 阅读 · 0 评论 -
Spark问题记录
问题1问题描述项目中使用CDH 5.8,在测试环境上使用 spark-sql 将数据写到Mysql 时,一直报错如下java.lang.ClassNotFoundException: com.mysql.jdbc.Driver根据错误应该是Mysql 问题,两种可能存在节点上没有 MySQL驱动 JarJar 路径未指定对由于我对测试环境集群组件配置不了解,于是去 CM上看了一下Spark的配置,几乎都没有找到 驱动包,于是给每个节点下这两个路径放置了Jar/opt/cloudera/p原创 2020-07-03 19:11:46 · 135 阅读 · 0 评论 -
Windows ,PySpark 访问远程 Hive 环境搭建
Windows , PySpark 访问远程 Hive 环境搭建原创 2020-06-04 20:31:28 · 1584 阅读 · 1 评论 -
HQL动态传参与SQL对比
HQL与SQL动态传参方式对比MYSQL脚本传参# 设置变量sed -i "1 i\ set @name='$name';" file.sqlsed -i "1 i\ set @age='$age';" file.sqlsed -i "1 i\ set @db=$db_name;" file.sql# 执行 SQL 语句mysql -uroot -proot -hx.x.x.x -P3306 --database dbname --default-character-set=utf8 -原创 2020-05-26 17:34:13 · 358 阅读 · 0 评论 -
采坑笔记-GeoIP 库的坑
GeoIP库主要用来做 IP 地域解析,目前用的多的有淘宝 IP, IP2Region, GeoIP ,GeoIP 质量上乘,产品多语言支持,用起来很方便,目前 GeoLite免费,GeoIP2 收费,GeoLite 博主发现存在解析不精准的问题,还看到其他人吐槽 GeoLite 对国内地区支持不是很友好,反正博主要开始用了,因为项目定死了要用它。集成过程如下 pom.xml文件<dependencies> <dependency> &.原创 2020-05-17 20:02:03 · 1758 阅读 · 2 评论 -
Spark(V2.11)内核源码解析
Spark内核源码解析(V2.11)`Master`功能启动流程分析`Worker` [`RpcEndPoint`]功能启动流程分析`Submit`流程分析`ApplicationMaster``CoarseGrainedExecutorBackEnd``SparkContext``Driver``Executor``Master` `Worker` 通信Master功能进程 ,类似于 Re...原创 2020-04-17 21:15:20 · 184 阅读 · 0 评论 -
HBase配置及集群搭建
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。安装部署首先保证Zookeeper集群的正常部署并启动Hadoop集群的正常部署并启动hbase-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_144export HBASE_MANAGES_ZK=falsehbase-site.xml<con...原创 2020-02-05 18:57:44 · 266 阅读 · 0 评论 -
Kafka配置及集群搭建
Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。使用消息队列的好处解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。缓冲有助于控制和...原创 2020-02-05 18:00:42 · 299 阅读 · 0 评论 -
Flume环境搭建及配置
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.flume-env.sh 配置JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_1442.Exec source适用于监控一个实时追加的文件,但不能保证数据不丢失;Spooldir Source能够保证数据...原创 2020-02-04 15:00:44 · 397 阅读 · 0 评论 -
Zookeeper部署与配置
1.打开zoo.cfg文件,修改dataDir路径 创建 zkData 目录 dataDir=/opt/module/zookeeper-3.4.10/zkData 2.相关命令 zkServer.sh start ----- 启动服务 status ---- 服务状态 stop ------ 停止服务 zkCli.sh ------...原创 2020-02-04 11:46:42 · 236 阅读 · 0 评论 -
Hive安装部署及配置
1.hive-env.sh 配置HADOOP_HOME路径 export HADOOP_HOME=/opt/module/hadoop-version 配置HIVE_CONF_DIR路径 export HIVE_CONF_DIR=/opt/module/hive/conf2.Metastore默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore; 安装...原创 2020-02-01 19:08:54 · 192 阅读 · 0 评论 -
Hadoop集群配置
Hadoop集群配置1.hadoop-env.sh 配置 JAVA_HOME2.core-site.xml <!-- 指定HDFS中NameNode的地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop102:9000</value&...原创 2020-01-31 16:06:27 · 310 阅读 · 0 评论