![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 96
a18792721831
这个作者很懒,什么都没留下…
展开
-
从zookeeper官方文档系统学习zookeeper
从zookeeper官方文档系统学习zookeeper1. zookeeper2. zookeeper 文档3. zookeeper 单机版3.1 配置3.2 启动3.3 验证4. zookeeper 集群版4.1 配置4.2 启动4.3 验证5. zookeeper 配置5.1 最小配置5.2 其他配置6. zookeeper Leader 选举6.1 启动时的Leader选举6.2 运行中的leader选举6.3 zookeeper 节点状态7. zookeeper 客户端命令7.0 文档7.1 zoo原创 2022-03-01 01:00:26 · 935 阅读 · 0 评论 -
sparksql将国家统计局csv文件解析并存储在hive表
sparksql将国家统计局csv文件解析并存储在hive表目的分析数据下载数据标准化数据存储开发环境集成实现项目创建依赖数据标准化DataFrame 行列转置数据存储主程序逻辑验证启动本地存储远程存储总结git地址:https://gitee.com/jyq_18792721831/sparkmaven.git目的学习大数据,那么数据从哪来?国家统计局可以免费下载社会上的各种数据,所以从国家统计局下载数据就是一个不错的数据来源渠道。当然这种只是适合自己练习或者有针对性的分析数据。一般各个公司都有自原创 2022-02-26 01:52:26 · 2017 阅读 · 0 评论 -
Hive的hiveserver2和beeline的使用以及spark thritfserver的启动
Hive的hiveserver2和beeline的使用以及spark thritfserver的启动Hive 的hiveserver2介绍hiveserver2 的配置beeline连接hiveserver2配置hiveserver2的界面spark thriftserver的配置beeline 连接spark thriftserverthriftserver和spark-sql对比spark sql 程序连接thriftserverHive 的hiveserver2介绍HiveServer2 (HS2原创 2022-02-24 23:24:19 · 5431 阅读 · 7 评论 -
spark sql 创建rdd以及DataFrame和DataSet互转
spark sql 创建rdd以及DataFrame和DataSet互转使用SparkSession读取本地文件创建rddDateSet的介绍DataFrame的介绍Rdd转DateFrame读取本地文件得到DataFrameDF风格查询sql风格查询查看sql的执行计划RDD通过指定结构转为DataFrameRDD通过反射构造结构转为DataFrameRdd 转DataSet从DataFrame或DataSet中获取RDDDataFrame和DateSet的互转spark sql 连接 thriftser原创 2022-02-24 01:42:37 · 1618 阅读 · 0 评论 -
使用maven集成java和scala开发环境
使用maven集成java和scala开发环境创建项目增加scala依赖创建目录安装scala插件scala的hello worldmaven 插件配置仓库maven-compile-pluginmaven-scala-pluginmaven-jar-pluginmaven-dependency-pluginmaven-assembly-pluginspark 开发环境git地址:https://gitee.com/jyq_18792721831/sparkmaven.git创建项目我们首先创建一个普原创 2022-02-18 01:16:10 · 2712 阅读 · 1 评论 -
spark源码编译和集群部署以及idea中sbt开发环境集成
spark源码编译和集群部署以及idea中sbt开发环境集成源码下载源码编译maven 下载scala 下载编译参数编译编译分发的二进制包单机启动集群部署开发环境集成源码编译的3.2.0版本无法在window上直接用spark-shell启动总结项目地址:https://gitee.com/jyq_18792721831/studyspark.git源码下载打开Apache Spark™ - Unified Engine for large-scale data analytics,下载源码在下载原创 2022-02-13 21:25:24 · 1527 阅读 · 2 评论 -
hadoop集群的搭建以及hadoop的配置
hadoop集群的搭建以及hadoop的配置环境说明与目的配置说明准备hadoop-env.shcore-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmllog4j.propertiesssh 免密启动验证界面任务历史任务提交总结环境说明与目的准备:我自己准备了三台虚拟机在windows平台上使用Hyper-V搭建虚拟机集群环境_a18792721831的博客-CSDN博客环境如下主机nameNodedataNoderesourceMa原创 2022-01-20 23:21:40 · 3093 阅读 · 1 评论 -
Hive 安装、配置、数据导入和使用
Hive 安装、配置、数据导入和使用Hive 下载Hive 的环境Hive 配置Hive 数据导入总结Hive 下载首先到Apache Hive TM下载软件随便写一个,都比较慢下载二进制文件Hive 的环境首先将下载的压缩包上传到linux中将下载后的压缩包解压到合适的位置tar -zxvf apache-hive-2.3.9-bin.tar.gz然后配置环境变量vi ~/.bash_profile将HIVE_HOME配置到Path中增加HIVE_HOME=/hive原创 2022-01-18 23:53:55 · 1987 阅读 · 0 评论 -
在windows平台上使用Hyper-V搭建虚拟机集群环境
在windows平台上使用Hyper-V搭建虚拟机集群环境开启windows服务启动服务下载镜像创建虚拟机安装linux系统工具连接多个虚拟机总结开启windows服务首先需要启动hyper-v的windows服务打开windows更新选择开发人员模式然后选择应用然后选择【程序和功能】然后选择【启用或关闭windows功能】把Hyper-V的√选中重启电脑生效。如果上述步骤中哪一步没有,请更新windows至最新。启动服务打开【服务】管理手动启动Hyper-V的服务原创 2022-01-15 01:06:46 · 3307 阅读 · 0 评论 -
windows下搭建hadoop
windows下搭建hadoop下载环境变量windows 脚本替换配置windows权限启动单词统计实例下载首先去Apache Hadoop下载hadoop的安装包选择二进制文件即可选择国内镜像增加下载速度下载后解压到文件夹环境变量设置环境变量HADOOP_HOME然后把HADOOP_HOME加入Path中打开cmd,输入hadoop version验证windows 脚本替换到cdarlint/winutils: winutils.exe hadoop.dll and原创 2022-01-13 21:26:55 · 2876 阅读 · 0 评论 -
新结算系统项目总结
新结算系统项目总结1. 项目介绍2. 项目划分2.1 设计阶段:2.1.1 旧结算系统的设计总结2.1.2 新结算系统架构选型2.1.3 新结算系统模块设计--模块设计2.1.4 新结算系统实体设计--er设计2.1.5 新结算系统关键算法--详细设计2.1.6 稽核设计2.1.7 交互设计2.2 开发阶段2.3 验证阶段2.4 发布阶段2.5 优化-维护阶段3. 项目中做的优点4. 项目中做的缺点5. 总结本文只是介绍作者在公司中参与的一个项目,以及参与项目的感受。1. 项目介绍项目背景:因旧结算是原创 2021-02-27 15:49:59 · 1031 阅读 · 0 评论 -
spark--键值对操作
spark--键值对操作1. pair RDD2. pair RDD 创建3. pair RDD 转化操作3.1 reduceByKey 根据键聚合3.2 groupByKey 根据键分组3.3 keys 获取键3.4 values 获取值3.5 sortByKey 根据键排序3.6 mapValues 值操作3.7 flatMapValues 合并值流操作3.8 combineByKey 根据键自定义聚合3.9 subtractByKey 差集3.10 join 内连接3.11 rightOuterJoi原创 2020-06-01 20:09:10 · 846 阅读 · 0 评论 -
spark--RDD
spark--RDD1. RDD2. RDD操作2.1 转化操作2.1.1 filter2.1.2 union2.1.3 map2.1.4 flatMap2.2 行动操作2.2.1 count2.2.23. 惰性求值4. 函数传递1. RDDspark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。存在两种方式创建RDD:读取程序外部数据集程序内构建RDD举例:RDD支持两种操作:转化操作和行动操作。转化操作和行动操作最大的区别原创 2020-05-29 11:45:35 · 543 阅读 · 0 评论 -
spark入门
spark 入门1. 下载2. 二进制包目录3. 配置4. 启动5. 体验5.1 数据准备5.2 spark-shell5.3 加载数据5.4 简单体验6. spark UI6.1 UI 入口6.2 作业汇总6.3 作业计算过程6.4 作业DAG6.5 作业描述指标6.6 作业调度6.7 作业拆分6.8 作业执行6.9 任务执行详细6.10 任务日志1. 下载在spark下载地址,下载spark二进制包。http://spark.apache.org/downloads.html这里不仅仅需要选择原创 2020-05-27 14:44:21 · 355 阅读 · 0 评论 -
hadoop安装
hadoop安装1.下载2.配置2.1 Java2.2 site配置2.3 hdfs工作模式2.4 yarn配置2.5 hdfs副本数3. 设置免密登录4. 启动4.1 格式化hdfs4.2 启动hdfs4.3 启动yarn5. 验证6. 各节点免密登录7. 子节点加入集群7.1 hdfs7.2 yarn8.简单使用8.1 hdfs1.下载https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.ta原创 2020-05-22 19:38:18 · 417 阅读 · 0 评论