Spark
文章平均质量分 67
小白白白又白cdllp
数据挖掘,数据分析,数据市场
展开
-
Pyspark获取hdfs上多个文件
(作者:陈玓玏)这个需求可以一分为二:我想直接读取所有文件并合并结果;我想获取文件路径,然后再一个一个获取结果。第一种,可以用sc.textFile(path),直接批量读取文件第二种,我暂时没找到pyspark里的好方法,所以我直接用命令行+解析命令行结果的操作进行的。命令行获取文件路径:d = os.popen("hadoop fs -ls /user/log/ctm_api_logs | awk ‘{print $8}’ ").read().split(’\n’)解析命令原创 2020-11-17 14:30:21 · 4062 阅读 · 0 评论 -
Python读取snappy后缀文件
(作者:陈玓玏)需要读取个hbase表调用的日志文件,是snappy后缀的。snappy是压缩文件,如果要读取其中内容,我们需要先进行解压操作。#不是这个包pip3.6 install snappy --user#是这个包pip3.6 install python-snappy --user安装好之后,python3.6进入python,读文件的时候最好加上’rb‘,否则可能报编码问题import snappycompressed = open('logs.snappy','rb').r原创 2020-11-17 14:25:08 · 4799 阅读 · 4 评论 -
Linux下安装单机版Spark并使用scala和python
(作者:陈玓玏)只学习spark,还不学分布式的时候,可以先单机装spark,这时候不需要用到hadoop的,但是仍然需要java环境,所以要先安装java的jdk。1、 下载并安装java jdk:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 地址,下载一样的位置,...原创 2018-11-02 20:36:10 · 3629 阅读 · 0 评论 -
Windows10安装spark(包括hadoop安装)
(作者:陈玓玏)环境安装命令行中输入java –version,看是否能正确输出版本信息,不能则需要安装,可以自己搜索一下Windows下java环境的安装。Scala安装下载地址:http://www.scala-lang.org/download/2.11.8.html下载安装后配置路径,在环境变量的系统变量path中添加以下链接:在命令行输入scala,能够输出版本信息即安装...原创 2018-11-24 21:39:42 · 3180 阅读 · 0 评论 -
Pyspark中RDD对象的使用
(作者:陈玓玏)下文中用到的数据集下载地址:http://files.grouplens.org/datasets/movielens/ml-100k.zip, 下载到自己的机器上,然后使用时记得把下面的路径替换成你自己的路径。写得不太好,后面会再完善。获取Spark中的rdd不能直接用索引来取数,都要用以下方法:#读取文件内容user_data = sc.textFile('root...原创 2018-11-24 22:00:31 · 1276 阅读 · 0 评论 -
Spark连接MySQL数据库并读取数据
(作者:陈玓玏)打开pyspark,带驱动的那种用命令行启动pyspark时需要加上jdbc的驱动路径:pyspark --driver-class-path D:/Users/chendile/Downloads/mysql-connector-java-3.1.14.jar在Linux和Windows命令行下都可以用这种方法,但是如果出现以下错误:py4j.protocol.Py4...原创 2018-11-24 22:08:48 · 6398 阅读 · 0 评论 -
Spark安装中遇到的JAVA_HOME is not set和Name or service not known错误
(作者:陈玓玏)一、 JAVA_HOME is not set场景:使用java命令或通过spark-shell启动spark时出现JAVA_HOME is not set的错误。原因:设置了linux环境变量后,未立即生效,导致设置的路径查找不到。解决方案:需要执行source /etc/profile,即使你不是改动的/etc/profile文件中定义的环境变量,而是改动的其他环境设置...原创 2018-12-03 21:08:56 · 2163 阅读 · 0 评论