hadoop-spark
文章平均质量分 76
sa726663676
这个作者很懒,什么都没留下…
展开
-
Spark打包WordCount程序的jar包
首先打开File->Project Structure。如图。然后选择Artifacts->绿色加号->Jar->From moduleswith dependencies…如图选择Main Class,如图然后因为我们只是在Spark上运行的,所以我们要删除下图红框里多余的部分,保留WordCount.jar以及‘WordCount’ compile output。小提示,这里可以利用Ctrl+A全选功能,选中全部选项,然后,配合Crtl+鼠标左键..原创 2021-09-05 21:56:01 · 810 阅读 · 0 评论 -
Hadoop学习基础知识
1 初识HadoopHadoop两个核心组件:HDFS和MapReduceHDFS:分布式文件系统,存储海量数据MapReduce:并行处理矿建,实现任务分解和调度Hadoop能够做什么?处理PB级别的数据处理、分析、统计、查询。有点,高扩展,低成本,成熟的生态。Hadoop大数据首选,人才缺口大:hadoop编程人员,hadoop运维人员2 安装hadoop(主要介绍java和hadoop安装)hadoop安装需要Linux环境,JavaJDK(Ha...原创 2021-02-06 00:39:48 · 127 阅读 · 0 评论 -
ubuntu20.04安装安装MySQL8.0.23版本
安装mysqlsudo apt-get update #更新软件源sudo apt-get install mysql-server #安装mysql上述命令会安装以下包:apparmormysql-client-5.7mysql-commonmysql-servermysql-server-5.7mysql-server-core-5.7因此无需再安装mysql-client等。默认安装完成就启动了mysql。启动和关闭mysql服务器:service mys...原创 2021-02-04 15:19:48 · 1114 阅读 · 1 评论 -
spark编程:DataFrame和SQL编程基础-2
DataFrame中的一些常用的过滤操作:首先在python中动态配置如下环境:import osimport sys# Path for spark source folderos.environ['SPARK_HOME'] = "/usr/local/spark"os.environ['JAVA_HOME']='/usr/lib/jvm/jdk1.8.0_162'# You might need to enter your local IP# os.environ['SPA.原创 2021-02-02 12:17:02 · 624 阅读 · 0 评论 -
spark编程:DataFrame和SQL编程基础-1
spark使用内置的DataFrame类的好处如下:1)更为简单的语法2)可以通过SQL语句操作DateFrame3)操作自动分布在RDD上首先在python中动态配置如下环境:import osimport sys# Path for spark source folderos.environ['SPARK_HOME'] = "/usr/local/spark"os.environ['JAVA_HOME']='/usr/lib/jvm/jdk1.8.0_162'# .原创 2021-02-02 11:47:59 · 241 阅读 · 0 评论 -
解决pycharm中pyspark无法智能提示自动补全问题
在pycharm进行编程的时候,我们可以通过代码动态配置环境使pyspark能够正常运行,但是存在以下两个问题:、1.编程的时候会导致导入pyspark包会标红,比如(import pyspark)2.而且代码的自动补全失效针对上面两个问题,通过下面的步骤即可解决:1:找到自己安装的spark路径2:将pyspark文件夹直接复制到pycharm项目中3:之后就能愉快的编程了...原创 2021-02-02 10:19:33 · 1201 阅读 · 1 评论 -
pycharm运行spark程序
Pycharm运行spark程序方法1:每次都需在程序中配置相关路径本人ubuntu相关软件安装的路径:spark:/usr/local/sparkjava_jdk:/usr/lib/jvm/jdk1.8.0_162新建一个py文件输入以下内容:import osimport sys# Path for spark source folderos.environ['SPARK_HOME'] = "/usr/local/spark" #根据自己的spark路径配置os.env..原创 2021-02-02 00:01:33 · 1854 阅读 · 0 评论 -
ubuntu20.04.1安装java-hadoop-spark-python-hbase-mysql-kafka及伪分布式配置
要使用python语言学习spark就需要安装java-hadoop-python程序。注意以上必须版本对应不然安装后无法使用1 安装ssh以及配置无密码登录输入如下命令:$sudo apt-get update$sudo apt-get install openssh-server #一般的ubuntu不自带服务器的ssh,都有客服端的ssh,需要安装服务器端的ssh$ssh localhost #启动ssh#下面配置无密码ssh登录$cd ~/...原创 2021-01-23 15:51:08 · 1291 阅读 · 0 评论