大数据与云计算开发者Cd
码龄4年
关注
提问 私信
  • 博客:90,030
    社区:30
    90,060
    总访问量
  • 72
    原创
  • 2,054,951
    排名
  • 19
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2021-04-01
博客简介:

一个学习的博客

查看详细资料
个人成就
  • 获得34次点赞
  • 内容获得9次评论
  • 获得255次收藏
  • 代码片获得1,070次分享
创作历程
  • 1篇
    2023年
  • 5篇
    2022年
  • 69篇
    2021年
成就勋章
兴趣领域 设置
  • 大数据
    sqliteoracledatabasemysql数据库mapreduce大数据
  • 微软技术
    sql
  • 云平台
    云计算
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

357人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Azure AD 与 AWS 单一帐户SSO访问集成【包含阿里在最后】,超详细讲解,包括解决可能出现的错误问题

AWS SSO单点登录
原创
发布博客 2023.03.09 ·
1577 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

Docker安装K8S集群超详细讲解

docker安装K8S完整讲解
原创
发布博客 2022.07.21 ·
6362 阅读 ·
2 点赞 ·
0 评论 ·
31 收藏

世界新冠疫情数countrydata.csv 表,实战分析

一、环境要求Hadoop+Hive+Spark+HBase 开发环境。四、功能要求1.数据准备 请在 HDFS 中创建目录/app/data/exam,并将 countrydata.csv 传到该目录。2.在 Spark-Shell 中,加载 HDFS 文件系统 countrydata.csv 文件,并使用 RDD 完成以下 统计计算。[root@gree2 exam]# hdfs dfs -put ./countrydata.csv /app/data/exam.
原创
发布博客 2022.01.06 ·
2577 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

在线考试系统学员答题批改日志,实战练习

一、环境要求 Hadoop+Hive+Spark+HBase 开发环境三、数据描述这是一份来自于某在线考试系统的学员答题批改日志,日志中记录了日志生成时间,题目 难度系数,题目所属的知识点 ID,做题的学生 ID,题目 ID 以及作答批改结果。日志的 结构如下:四、功能要求1.数据准备请在 HDFS 中创建目录/app/data/exam,并将 answer_question.log 传到该目录。[root@gree2 exam]# hdfs dfs -mkdir -p
原创
发布博客 2022.01.06 ·
541 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

阿里巴巴淘宝用户行为数据集,UserBehavior表实战分析

一、环境要求 Hadoop+Hive+Spark+HBase 开发环境二、数据描述 UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至 2017-12-03 之间有行为的约 5458 位随机用户的所有行为(行为包括点击、购买、加 购、喜欢)。数据集的每一行表示一条用户行为,由用户 ID、商品 ID、商品类目 ID、 行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下具体字段 说明如下:三、功能要求1.数据.
原创
发布博客 2022.01.05 ·
6635 阅读 ·
4 点赞 ·
4 评论 ·
55 收藏

美团外卖平台的部分外卖 SPU数据实操练习

一、环境要求 Hadoop+Hive+Spark+HBase 开发环境。三、数据描述 meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU(Standard Product Unit , 标准产品单元)数据,包含了外卖平台某地区一时间的外卖信息。具体字段说明如下:四、功能要求1.数据准备 请在 HDFS 中创建目录/app/data/exam,并将 meituan_waimai_meishi.csv 文件传到该 目录。并通过 HDFS 命令查询出文..
原创
发布博客 2022.01.04 ·
2467 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

Spark高级操作之JSON文件实操练习

演示的日志文件为 op.log,内容为按照日志格式进行切割 val conf = new SparkConf().set("spark.testing.memory","2147480000").setMaster("local[*]").setAppName("sparkDemo1") val sc = SparkContext.getOrCreate(conf) val spark = SparkSession.builder().appName("SparkJson.
原创
发布博客 2021.12.14 ·
1335 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Spark高级操作之json复杂和嵌套数据结构的操作

一,基本介绍spark2.0版本以后存在的Sparksql的一些实用的函数,帮助解决复杂嵌套的json数据格式,比如,map和嵌套结构。Spark2.1在spark的Structured Streaming也可以使用这些功能函数。下面主要介绍:A:get_json_object()B:from_json()C:to_json()D:explode()E:selectExpr()二,实例演示首先,创建一个没有任何嵌套的JSon Schema,在xshell和idea里.
原创
发布博客 2021.12.14 ·
778 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Scala函数大全命令提示符页面应用,可按A-W顺序查看

++ count hasDefiniteSize maxBy sameElements toBuffer++: deep head min scan toIndexedSeq+: diff..
原创
发布博客 2021.12.01 ·
698 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

linux jdk,hadoop,zookeeper, hive , zeppelin ,sqoop ,hbase,scala,spark,flume,kafka 安装终极脚本全家桶安装

shellz只需要在opt准备两个文件夹,一个install存放压缩包,soft存放解压后的文件就行接着就开始运行脚本,脚本随便创建一个文件吧脚本拷贝进去,赋权运行就行里面所有的ip地址改为自己的就行。虚拟机你的hostname一定要设置好,不然脚本里面所有的$hostname,你都要改为你的ip地址就行#!/bin/bashjdk=truehadoop=truezk=truehive=truezp=truesqoop=truehbase=true..
原创
发布博客 2021.11.26 ·
1557 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

hive的数据倾斜问题

数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类Hive倾斜之group by聚合倾斜原因:分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久;对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当其中每一组的数据量过大时,会出现其他组的计算已经完成而这个reduce还没有计算完成,其他的节点一直等待这个节点的任务执行
转载
发布博客 2021.11.26 ·
188 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

sqoop原理和基本应用

1.sqoop的介绍(1)介绍:Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。  导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、HBASE等数据存储系统。  导出数据:从hadoop的文件系统中导出数据到关系型数据库中。(2)工作机制  将导入导出的命令翻译成MapReduce程序来实现,并且MapReduce程序不需要reducetask的。在翻译出的MapReduce中主要针对对 InputFormat 和 O.
原创
发布博客 2021.11.26 ·
598 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

什么是hbase,详解

HBase简介HBase的发展史2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起,2008年成为Apache Hadoop的一个子项目。现已作为产品在多家企业被使用,如:WorldLingo Streamy.com OpenPlaces Yahoo! Adobe 淘宝 Facebook Twitter Trend MicroHbase是什么HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规
转载
发布博客 2021.11.26 ·
682 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hbase常用命令

进入到hbase shell[root@gree139 conf]# hbase shell 查看版本hbase(main):001:0> version查看命名空间类似于库名hbase(main):008:0> list_namespaceNAMESPACE default ...
原创
发布博客 2021.11.25 ·
308 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

什么是拉链表,并通过hive进行实现

拉链表产生背景在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1、数据量比较大;2、表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3、需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等;4、变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右;5、如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存
原创
发布博客 2021.11.25 ·
2785 阅读 ·
3 点赞 ·
0 评论 ·
21 收藏

在虚拟机中搭建高可用集群,超详解,保姆级教学

先确定你的高可用集群分布表我的是,一定要记住自己的到时候配置xml的时候要对照自己的来接着启动虚拟机开始搭建
原创
发布博客 2021.11.05 ·
1321 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

用MapReduce实现2个表的join连接与查询

首先准备两个CVS表单我第一个表单为customer第二个表单为order接着实现2表连接查询首先写一个实体类CustomerOrder。定义变量package cn.kgc.kb15.demo05;import org.apache.hadoop.io.WritableComparable;import javax.xml.crypto.Data;import java.io.DataInput;import java.io.DataOutput;imp..
原创
发布博客 2021.11.05 ·
2354 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

在虚拟机中搭建Hadoop环境,详解

首先将hadoop解压包放入目录下解压hadoop解压包,解压到/opt/soft里面[root@gree6 install]# tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz -C /opt/soft解压完看soft里面是否有呢接着改个名[root@gree6 soft]# mv hadoop-2.6.0-cdh5.14.2/ hadoop260接着开始配置环境[root@gree6 soft]# vi /etc/pro...
原创
发布博客 2021.11.03 ·
2812 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

写一个安装LinuxJDK脚本

首先将jdk加压包放入一个目录下接着在opt目录下创建一个文件,进入shell里面[root@gree5 opt]# mkdir shell建立一个文件[root@gree5 shell]# vi ./installJdk.sh写入代码#!/bin/bashjdk=trueinstalldir=/opt/softif [ ! -d "$installdir" ];then mkdir $installdirfiif [ "$jdk"=true ]; t.
原创
发布博客 2021.11.03 ·
136 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何实现夸虚拟机免密登录,能够通过一台进入其他虚拟机

首先给你的虚拟机取个别名,[root@gree1 ~]# hostnamectl set-hostname gree1查看别名[root@gree1 ~]# hostnamegree1[root@gree1 ~]# vi /etc/hosts修改hosts这时候ping一个接着开始设置秘钥进行所有虚拟机的夸虚拟机免密登录首先生成秘钥[root@gree1 ~]# ssh-keygen -t rsa -P ""[root@gree1...
原创
发布博客 2021.11.03 ·
471 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多