![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据基础PySpark
文章平均质量分 91
PySpark相关基础知识的学习与练习
imkaics
不想写简介怎么办,XXXXXXX
展开
-
Spark SQL编程初级实践
以自己学号(your student number)为第一条数据,生成20条数据(后面数据your student number依次递增1,name和age随机),详细格式如下。配置Spark通过JDBC连接数据库MySQL,编程实现利用DataFrame插入如表5-2所示的10行数据到MySQL中(学号递增,其他字段随机),最后打印出age的平均值。读取文件处理为RDD,接着转换为DataFrame,并按“id:1,name:Ella,age:36”的格式打印出DataFrame的所有数据。原创 2024-04-27 08:00:00 · 1352 阅读 · 1 评论 -
RDD编程初级实践
已经预先将数据放在了/home/hadoop/mycode/ex2/实验2-数据.txt文件中,文件下载地址。原创 2024-04-24 12:00:00 · 1597 阅读 · 0 评论 -
HDFS常用操作以及使用Spark读取文件系统数据
在HDFS中的“/user/hadoop”目录下,创建子目录input,把HDFS中“/user/hadoop”目录下的test.txt文件,复制到“/user/hadoop/input”目录下;删除HDFS中“/user/hadoop”目录下的test.txt文件,删除HDFS中“/user/hadoop”目录下的input子目录及其子目录下的所有内容。把HDFS中“/user/hadoop”目录下的test.txt文件,下载到Linux系统的本地文件系统中的“/home/hadoop/下载”目录下;原创 2024-03-16 11:50:13 · 2595 阅读 · 1 评论 -
安装Hadoop伪分布式及spark Local模式
在这里我也将hadoop用户密码设置为hadoop,虽然会提示密码不能少于8位,但是不用管这个提示,我们也将密码设置为hadoop就可以了。修改./conf/spark-env.sh配置文件(需要使用cp复制模板文件再进行修改)为hadoop用户添加使用sudo权限的权限(不然hadoop用户不能使用sudo)在终端输入下面命令,创建hadoop用户,并指定shell为/bin/bash。修改解压后的文件夹为spark,并修改内容所有者和所属组为hadoop。格式化NameNode名称节点。原创 2024-03-13 20:23:55 · 1773 阅读 · 0 评论