![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
文章平均质量分 56
斯特兰奇
这个作者很懒,什么都没留下…
展开
-
pyspark学习:GroupedData 对象
对应课件3.4apply(udf) 该方法使用pandas中的用户自定义函数作用在GroupedData的每一组数据之上,返回结果作为一个DataFrame。udf用户自定义函数接收pandas.DataFrame作为参数,返回另外一个pandas.DataFrame对象。这个方法是pyspark2.3中加入的新方法。 其通过@pandas_udf表示这是一个pandas的方法,参数为id long,v double,指定PandasUDFType为分组map操作。...原创 2021-10-03 01:29:32 · 549 阅读 · 0 评论 -
pyspark学习44:first()、foreach(f)
对应笔记3.3一、返回dataframe的第一条记录import numpy as npdf = spark.createDataFrame([(np.nan,27.,170.),(44.,27.,170.),(np.nan,np.nan,170.)],schema=['luck','age','weight'])>>> df.first()二、foreach(f),在每一个Row上运用函数f方法实际上它调用的是df.rdd.foreach这个基于RDD上...原创 2021-10-03 01:27:36 · 2790 阅读 · 0 评论 -
spark报错Initial job has not accepted any resources; check your cluster UI to ensure that workers are
报错:Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources我在jupyter notebook中以:spark = SparkSession.builder.master('spark://hadoop101:7077').appName('apply123').getOrCre..原创 2021-10-02 20:46:28 · 1564 阅读 · 1 评论 -
pyspark学习42-43:删除重复行、删除有空值的行、填充空值、filter过滤数据
对应笔记3.3,视频42-431、删除重复行df = spark.read.csv('/sql/customers.csv',header=True)>>> from pyspark.sql import Row>>> df = sc.parallelize([... Row(name='regan', age=27, height=170),... Row(name='regan', age=27, height=170),... Row(name=原创 2021-10-02 17:09:30 · 6178 阅读 · 0 评论 -
pyspark学习41:计算皮尔森相关系数、协方差、查看行数和描述性统计信息、更改列名、删除列
启动pyspark:pyspark --master spark://hadoop101:7077 --executor-memory 950m --executor-cores 2读取hdfs上的文件创建一个dataframe>>>df = spark.read.csv('/sql/customers.csv',header=True)1、查看行数2、查看数据的格式>>> df.dtypes计算相关性系数之前,需要将数据格式转换为i...原创 2021-10-02 11:51:35 · 1789 阅读 · 0 评论 -
pyspark学习41:用正则表达式过滤dataframe的指定列
创建一个dataframe:df = spark.createDataFrame([("a", 1), ("b", 2), ("c", 3)], ["Col1","a"])原创 2021-10-02 01:34:55 · 1520 阅读 · 0 评论 -
Exception: Python in worker has different version 2.6 than that in driver 2.7, PySpark cannot run wi
spark-standalone集群模式下运行pyspark程序,报这个错误:Exception: Python in worker has different version 2.6 than that in driver 2.7, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correc原创 2021-10-01 22:48:31 · 246 阅读 · 0 评论 -
spark-shell报错:Version information found in metastore differs 2.3.0 from expected schema version1.2.0
在spark-shell执行如下语句时候scala> spark.sql("show tables").show报错:Version information found in metastore differs 2.3.0 from expected schema version 1.2.0. Schema verififcation is disabled hive.metastore.schema.verification so setting version.需要在hiv.原创 2021-10-01 01:43:27 · 699 阅读 · 0 评论 -
pyspark笔记40-dataframe的read、agg集合函数、别名和数据缓存、设置断点
对应课件:3.3 SparkSQL中的核心数据结构DataFrame第40.pdf对应视频:40、agg聚合方法及数据缓存方法cache的讲解.mp4一、spark.read方法读取文件创建dataframe。dir(spark.read)查看。spark.read支持多种格式的文件的读取,包括:'csv', 'format', 'jdbc', 'json', 'load', 'option', 'options', 'orc', 'parquet', 'schema', 'table', 't原创 2021-09-30 17:49:48 · 1689 阅读 · 0 评论 -
spark-Standalone 三种运行模式
一、驱动driver在集群运行模式, 以cluster方式提交时,port最好设置为6066,因为这种方式提交时,是以rest api方式提交applicationbin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://hadoop101:6066 \--deploy-mode cluster --executor-memory 1G \--total-executor-cores 6 \...原创 2021-09-27 00:24:26 · 217 阅读 · 0 评论 -
yarn集群下启动spark错误WARN:66 - Neither spark.yarn.jars nor spark.yarn.archive is set
yarn集群下启动spark错误如下:WARN Client:66 - Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.解决办法 在hdfs上创建目录:hdfs dfs -mkdir -p /home/hadoop/spark_jars上传spark的jarshdfs dfs -put /opt/mod...原创 2021-09-26 18:59:11 · 1406 阅读 · 0 评论 -
《基于pyspark的大数据分析》视频29淘宝数据分析
课程《基于pyspark的大数据分析》视频29淘宝数据分析中,源代码如下: # 需求:按照session_id进行分组,统计次数,会话PV session_pv = sqlContext.sql(""" SELECT session_id, COUNT(1) AS cnt FROM tmp_page_views GROUP BY session_id O原创 2021-08-28 19:36:02 · 302 阅读 · 0 评论 -
spark读取文件 报错:py4j.protocol.Py4JJavaError
# read data from hdfs and transform RDD[Row] page_views_rdd = sc\ .textFile("/user/hive/warehouse/page_views")\ .map(map_func) # Create DataFrame page_views_df = sqlContext.createDataFrame(page_views_rdd)原代码如上,要读取的文件保存...原创 2021-08-28 18:48:02 · 1126 阅读 · 1 评论 -
ALS协同过滤推荐算法在pySpark MLlib机器学习库源码解析
Spark MLlib中实现ALS协同过滤推荐算法的库为recommendation.py,这可库有以下三个类__all__ = ['MatrixFactorizationModel', 'ALS', 'Rating'] -a. Rating 算法的输入,包括用户对物品的评价,为三元组 class Rating(namedtuple("Rating", ["user", "product", "rating"])) user、producet整型数据,通常...原创 2020-05-09 12:13:19 · 674 阅读 · 0 评论 -
pyspark中自定义函数的用法
pyspark中自定义函数比python中多了一部注册,整体流程是“定义-注册-调用”,其中注册和调用两步在sparksql和DSL中又有所区别,具体如下:from pyspark.sql import SparkSession第一步定义一个函数: def squared_func(number): return number *number这一步和在pyt...原创 2020-05-07 19:28:11 · 1916 阅读 · 0 评论 -
linux环境下用pyspark2.x读取集群中hive的表数据遇到的坑及其解决方法
第一个坑:首先把hive安装目录下/opt/module/hive/conf 的hive-site.xml复制到spark-2.1.1-bin-hadoop2.7\conf,执行如下代码:from pyspark import SparkConf,SparkContextfrom pyspark.sql import HiveContext,Row sparkC...原创 2020-05-07 15:01:34 · 1581 阅读 · 0 评论