大数据
文章平均质量分 68
勇敢607
一路走来,经历了技术转型的辛酸,跌跌碰碰,已进入中年,中年危机的转型又迫在眉睫。勇敢向前,加油
展开
-
大数据相关组件答疑
1、 HDFS文件读流程?(1)客户端通过调用FileSystem的open方法获取需要读取的数据文件,对HDFS来说该FileSystem就是DistributeFileSystem(2)DistributeFileSystem通过RPC来调用NameNode,获取到要读的数据文件对应的bock存储在哪些NataNode之上(3)客户端先到最佳位置(距离最近)的DataNode上调用FSDataInputStream的read方法,通过反复调用read方法,可以将数据从DataNode传递到客原创 2021-04-08 09:04:28 · 224 阅读 · 0 评论 -
spark sql核心API整理
核心API:sparkSession: spark入口统一封装SparkConf,SparkContext,SQLContext, 配置运行参数,读取文件,创建数据,使用SQLDataset:统一Dataset接口,其中DataFrame==Dataset[Row]基本实现了类似RDD的所有算子column: Dataset的列对象包括对列操作的基本函数ROW : DataFrame的行对象包括对行操作的基本函数Encoder : 序列化支持常用的数据...原创 2021-03-22 12:20:03 · 551 阅读 · 0 评论 -
kafka 命令行工具常用命令行操作
1 数据命令1.1 启动kafka服务zookeeper:主要设置clientPort(使用kafka自带的zookeeper)bin/zookeeper-server-start.sh config/zookeeper.properties bin/zookeeper-server-start.sh config/zookeeper.propertiesstart kafka server:bin/kafka-server-start.sh config/server.prope...原创 2021-01-06 16:11:41 · 376 阅读 · 0 评论 -
Hadoop hdfs操作的一些常用命令
概述本文档介绍Hadoop hdfs系统的一些常用命令。操作hdfs系统可以使用hadoop fs 也可以使用 hdfs dfs ,两者效果一样。(hadoop dfs命令已不再建议使用)参考: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html常用命令一、had...原创 2019-03-01 14:54:37 · 506 阅读 · 0 评论 -
Hive中文乱码
解决思路:主要从hive meta_store的元数据hive库进行编码设置1 mysql -u root -p 输入相关密码 进入mysql ;2 切换到hive 数据>>use hive;3 在mysql命令行,执行以下5条SQL语句3.1 修改表字段注解和表注释alter table COLUMNS_V2 modify column COMMENT varch...原创 2019-03-05 17:53:54 · 1272 阅读 · 0 评论