大数据
文章平均质量分 76
繁依Fanyi
摸鱼中。。。。
展开
-
猿创征文 | 大数据比赛以及日常开发工具箱
VMware Workstation,相信大家都不陌生了,由于目前的大部分的电脑都是预装了 Windows ,不少和我一样为了避免安装双系统从而进行 Linux 等方面的开发的用户就会使用该软件来安装 Linux 虚拟机来进行相关开发。而在日常大数据的学习及开发中,会需要搭建 “一主二从” 的计算机集群,如果使用物理机搭建集群,对于我这样一个学生党来说是负担不起的;而通过 VMware Workstation 便可以虚拟化物理设备,来在主机上安装多个操作系统,从而来搭建多计算机集群。VMware 界面展示。原创 2022-11-13 13:26:35 · 1566 阅读 · 0 评论 -
大数据环境搭建 —— VMware Workstation 安装详细教程
在此声明,安装过程是我自己制作并截图的,并没有什么侵权,总有一些自以为是的人点了一键维权,认为别人侵犯了自己的权益,你能做别人不能做是吧!下载,当然,迅雷似乎解速了,大家也可以使用迅雷等软件下载。一般就没事,这里提供一个,如果哪天不能用了可以再去网上找。④ 选择安装位置,并在所有的地方都打勾。④ 输入虚拟机的名称,选择虚拟机的位置。⑥ 点击完成即完成创建,继续后续安装。安装包可能有点慢,可以使用。(如有特殊需求,可以自定义)。,框内的连接数量跳到最大。③ 下载速度迅速提升。安装程序光盘映像文件。原创 2022-11-11 20:08:22 · 2668 阅读 · 0 评论 -
大数据随记 —— 利用Python分析快手APP全国大学生用户数据(2022 年初赛第四题 )
基于题目1中统计得到的各学校学生使用频次取出排名前5的学校,按照学校、性别分组,对学生人数进行sum累加求得各性别人数,将最终结果通过饼图展示(即展示前5所学校中每所学校男生女生的人数,需要在一张画布上展示5个图形,学校名作为每个图形的标题)。第三题我们主要使用 pyecharts 中的 map 来实现频次热力地图,由于 pyecharts 画地图时可能会因为网络问题而导致地图无法显示出来,于是我们就先下载 pyecharts 的地图数据包(当然网络好的可以不用下载)。原创 2022-10-28 21:08:15 · 3634 阅读 · 3 评论 -
大数据随记 —— Hadoop 环境搭建
① 进入 /opt/module/hadoop-2.7.2/etc/hadoop 目录。① 进入 /opt/module/hadoop-2.7.2/etc/hadoop 目录。① 进入 /opt/module/hadoop-2.7.2/etc/hadoop 目录。① 进入 /opt/module/hadoop-2.7.2/etc/hadoop 目录。① 进入 /opt/module/hadoop-2.7.2/etc/hadoop 目录。进入 Hadoop 路径,输入以下命令查看 Hadoop 安装路径。原创 2022-09-02 23:30:14 · 3180 阅读 · 0 评论 -
大数据随记 —— WordCount 案例
从 MapReduce 的命名可以看出,MapReduce 主要由两个阶段组成:Map 与 Reduce。通过编写map()函数与reduce()函数,就可以使用 MapReduce 完成分布式程序的设计。MapReduce{Map⇒map()函数Reduce⇒reduce()函数MapReduce\left\{&Map &&\Rightarrow map() 函数 \\\\原创 2022-09-02 21:37:50 · 2310 阅读 · 0 评论 -
问题随记 —— org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.IntWritable
Map 类 key的默认输入是 LongWritable 型,不能强转。Hadoop 运行 jar 包出现以下问题。原创 2022-09-02 16:55:08 · 4280 阅读 · 0 评论 -
大数据随记 —— DataFrame 与 RDD 之间的相互转换
在 Scala 中,使用 case class 类型导入 RDD 并转换为 DataFrame,通过 case class 创建 Schema,case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema,这种方式会让代码比较冗长。这种方法的好处是,在运行时才知道数据的列以及列的类型的情况下,可以动态生成 Schema。已知类的 Schema,使用这种基于反射的方法会让代码更加简洁而且效果也更好。DataFrame 中的数据结构信息,即为。原创 2022-09-01 17:54:25 · 3642 阅读 · 0 评论 -
大数据随记 —— DataFrame 数据操作
DataFrame 也提供了特定的 API 让我们操作 DataFrame 中的数据,也被称为 DSL(Domain-Specific Language,即领域特定语言)。使用 DSL 语法风格就不必去创建临时视图了。DataFrame 数据操作有两种操作数据的方式,一种是使用 DataFrame所支持的 SQL 语法进行数据操作,另一种使用 DataFrame 提供的相关 API 对数据进行操作。通过 SQLContext 的 sql 方法,即可使用我们熟悉的 SQL 语法进行数据操作。......原创 2022-09-01 07:25:01 · 2096 阅读 · 0 评论 -
大数据随记 —— DataFrame 的创建与 Maven 配置
Spark 应用程序使用 SQLContext,可以通过 RDD、Hive 表、JSON 格式数据创建 DataFrame。方法即可通过读取 JSON 文件创建 DataFrame。原创 2022-09-01 00:03:31 · 1523 阅读 · 0 评论 -
大数据随记 —— RDD 的创建
Spark 会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是形成一个 RDD。也就是说,集合中的部分数据会到一个节点上,另一部分的数据会到其他节点上,这样就可以用并行的方式来操作分布式数据集合。1、Spark 默认会根据集群的情况来设置 partition 的数量,也可以在调用 parallelize 方法时,传入第二个参数,来设置 RDD 的 partition 数量,比如。通过读取文件来创建 RDD,文件中的每一行就是 RDD 中的一个元素。将会在 RDD 的转换中讲解。...原创 2022-08-27 06:32:49 · 1699 阅读 · 0 评论 -
大数据随记 —— Spark Core 与 RDD 简介
弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像 MapReduce 等数据流模型的容错特性,能在并行计算中高效地进行数据共享进而提升计算性能。RDD 中提供了一些转换操作,在转换过程中记录了“血统”关系,而在 RDD 中并不会存储真正的数据,只是数据的描述和操作描述。RDD 是只读的、分区记录的集合。RDD 只能基于在稳定物理存储中的数据集和其他已有的 RDD 上执行确定性操作来创建。...原创 2022-08-27 06:08:44 · 1627 阅读 · 0 评论 -
大数据随记 —— Scala 环境搭建、插件安装
打开 IDEA,在左上角找到 File->在下拉菜单中点击 Setting…->点击 Plugins->点击 右 下 角 Install plugin from disk…进入 Scala 下载网址,下载对应的 Scala 安装文件(这里选择 scala-2.12.11.zip)。默认情况下 IDEA 不支持 Scala 的开发,需要安装 Scala 插件。在 Plugins 找到 Scala 插件,然后点击安装即可。解压刚刚下载好的 Scala 安装文件,我这里解压在了。系统变量,并配置其路径。...原创 2022-08-26 19:06:47 · 1607 阅读 · 0 评论 -
大数据随记 —— Spark 基本安装及相关配置
输入 http://master:8080/,或者 主节点ip:8080 进入Master 资源监控 Web UI 界面。② 修改 spark-env.sh 文件,添加 JAVA_HOME 环境变量和集群对应的 master 节点。一般选择好 Spark 版本后就会出现配置方法。进入 Spark 的 conf 目录。② 在 workers 中添加以下节点。① 拷贝 spark-env.sh。⑤ 配置 Spark 环境变量。③ 移动相关文件到指定目录。① 拷贝 workers。① 进入安装包所在目录。...原创 2022-08-18 10:46:49 · 2570 阅读 · 0 评论 -
大数据随记 —— MySQL 只能远程登录,不能本地登录
几个小时后突然想起来什么,就用本地的 SQLyog 连了一下 CentOS 的 MySQL,发现可以进入。MySQL 只能远程登录,不能本地登录。(这个问题最直观的表现就是这样,还有下面的表现)查询 mysql 库中的 user 表,发现 localhost 的。...原创 2022-08-11 01:35:50 · 2237 阅读 · 0 评论 -
大数据随记 —— Hadoop 概述
Hadoop 是 Apache 基金会所开发的分布式系统基础架构,可以让用户在不了解分布式底层细节的情况下,开发分布式程序。Hadoop 的思想来源于三篇关于 GFS、MapReduce、 BigTable 的论文,后来就演变成了 Hadoop 中的 HDFS、MapReduce、HBase,分别对应着 大数据存储、大数据分析计算、列式非关系型数据库。Hadoop 中主要包含三大组件:HDFS、MapReduce、YARN。Hadoop 目前主要有三个发行版本:Apache Hadoop、Cloudera原创 2022-07-03 23:58:12 · 1449 阅读 · 0 评论 -
Linux基础 —— CentOS7 离线安装 MySQL
① 打开 MySQL 下载页面,选择自己想要的版本即可② 找到自己想要安装的版本,点击下载即可。详细安装方法可见下文👇:白嫖过程可见下文👇:为了保险起见,防止之前安装过的 MySQL 与现在的 MySQL 产生冲突,就先卸载一遍 MySQL。① 查看 MySQL 依赖如果找到什么,要进行下一步的卸载,如果没有,就不用了。② 卸载 MySQL2. 发送 MySQL 安装包到节点主机上① 建立 ftp 连接这里使用 协议将文件传送到节点上,打开 ,填写信息,建立链接。② 发送安装包文件将 MyS..原创 2022-07-01 19:13:06 · 1696 阅读 · 0 评论 -
问题随记 —— file /usr/share/mysql/charsets/README from install of MySQL-server-5.1.73-1.glibc23.x86_64 c
安装 MySQL 与 glibc 冲突,报错如下可以看到是与 冲突了,删除该包即可。原创 2022-07-01 18:45:32 · 1229 阅读 · 0 评论 -
问题随记 —— /usr/bin/perl is needed by MySQL-server-5.1.73-1.glibc23.x86_64
CentOS7 安装 MySQL 报错原创 2022-07-01 18:33:53 · 1499 阅读 · 0 评论 -
Linux基础 —— XShell 免费获取指南
在使用 Linux 虚拟机 需要敲击命令时,当只有一台虚拟机还好,不用来回切换;但如果我们有多台虚拟机同时使用呢?搭建 Hadoop 集群需要多台虚拟机,只在虚拟机上管理时会有些麻烦,因此需要一个可以方便管理远程管理服务器的工具 —— XShell。(当然不选这个也是可以的啦,但这个收费的软件功能强大,而且突然免费了,那就当然要来白嫖啦)以下为白嫖教程 👇👇👇① 打开 XShell 官网:https://www.xshell.com/zh/② 在上方 “所有下载” 里,有一个 “家庭/学校免费”③ 点...原创 2022-06-19 00:09:23 · 1001 阅读 · 0 评论 -
大数据环境搭建 —— CentOS 安装
目前常见的虚拟机有 、等等,在这里我们使用 。详细安装教程在下面的文章里。这里我们选择 CentOS 镜像,官网链接在这👉:https://www.centos.org/不过官网链接可能较慢,可以点击下方链接进入阿里云的镜像网站下载。这里建议选择 Minimal 版本 ,因为该版本的系统镜像没有预装软件的镜像。 👇👇👇① 打开 VMware Workstation,点击 ,再点击新建虚拟机② 选择,并点击(如有特殊需求,可以自定义)。③ 选择 ,选择后点击④ 输入虚拟机的名称,选择虚拟机的位置⑤....原创 2022-06-06 19:49:08 · 805 阅读 · 1 评论 -
大数据系列教程 —— 目录
大数据系列教程原创 2022-06-05 10:48:07 · 762 阅读 · 0 评论