BigData
文章平均质量分 92
JJustRight
任何一件事情,只要心甘情愿,总是能够变得简单!
展开
-
RDD编程案例-共同粉丝问题
共同粉丝问题是一个经典的大数据分布式计算问题,本文基于RDD+PySpark+JupyterLab环境完成该案例。原创 2022-04-21 18:23:37 · 2398 阅读 · 0 评论 -
SparkSQL案例-图书信息分析
SparkSQL是Spark为处理结构化数据提供的高级组件,本文将使用SparkSQL完成图书信息统计,示例代码将分别以DSL和SQL两种风格进行讲解,并结合Matplotlib和Pandas对结果进行可视化呈现。文末提供数据和源代码的网盘资源原创 2022-04-14 13:20:07 · 2618 阅读 · 0 评论 -
Kylin环境搭建(保姆级教程)
Apache Kylin是基于Hadoop大数据平台的一个开源联机分析处理(Online Analytical Processing,OLAP)引擎。它采用多维立方体**预计算**技术,将大数据的SQL查询速度从之前的分钟乃至小时级别提升到亚秒级别,这种百倍、千倍的速度提升,为超大规模数据集上的交互式大数据分析奠定了基础。原创 2022-03-12 23:52:52 · 5040 阅读 · 0 评论 -
Hive环境搭建(保姆级教程)
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。本文将详细介绍Hive的本地安装模式的具体过程。原创 2022-03-09 09:03:48 · 15556 阅读 · 0 评论 -
HBase环境搭建与基本使用(保姆级教程)
HBase是一个基于Hadoop的分布式列族数据库,该产品源于Google的《BigTable》论文,它弥补了HDFS不能实时和随机读写等缺陷,支持数十亿行和数据百万列的大表。本文对HBase做了简单的介绍,并详细介绍了HBase2.x的安装过程和简单使用,希望对您有所帮助。原创 2022-01-20 01:03:34 · 4833 阅读 · 0 评论 -
Hadoop环境搭建及常见问题解决(保姆级教程)
学习大数据的路上,肯定少不了Hadoop的陪伴。在学习Hadoop之初,一件"痛苦"的事情莫过于装环境,看着别人万事亨通,而自己跌跌撞撞,个中心酸,有几人懂...本教程为保姆式教程,力图帮您排忧解难。主要内容如下:【资源准备】 => 【环境准备】 => 【JDK的安装】 => 【Hadoop的安装】 => 【伪分布式的配置】 => 【启动与测试】 => 【常见错误及解决办法】原创 2021-12-13 17:03:53 · 16222 阅读 · 39 评论 -
虚拟机安装(保姆级教程)
虚拟机安装(保姆级教程)零、教程涉及的资源一、虚拟软件安装二、虚拟电脑创建三、Linux系统安装四、简单设置1. apt源更新2. vmware-tools安装五、常见问题及解决方案1.vmware-tools安装但不生效2. 初装ubuntu 18.04, 发现没有网络3. 总是弹提示信息:"system program problem detected"零、教程涉及的资源一、虚拟软件安装VMware WorkstationVBoxVMware PlayerHyper-V本教程以安装VM原创 2021-09-15 17:35:55 · 50020 阅读 · 36 评论 -
ZooKeeper环境搭建(保姆级教程)
在分布式领域,一个不可或缺的组件,便是ZooKeeper。ZooKeeper是一个高可用的分布式数据管理和协调框架,并且能够很好的保证分布式环境中数据的一致性。ZooKeeper由Yahoo公司创建,是Google Chubby的开源实现。本教程的内容安排:ZooKeeper简介 => ZooKeeper安装 => 常见问题及解决办法原创 2021-12-16 22:37:45 · 5213 阅读 · 0 评论