PySpark 关闭不用的INFO信息

执行Spark程序时会显示大量INFO信息,导致输出混乱难以查找。日志文件设置位于org.apache.log4j下。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

执行Spark程序的时候 会显示很多的INFO, 但有时候会显得狠乱,我就找不到我的输出了

Log 文件的设置在 org.apache.log4j 下

def setLogger( sc ):
   # 选择log4j文件
  logger = sc._jvm.org.apache.log4j
  logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
  logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
   #这个一般不关,有时候还是有用的
  logger.LogManager.getRootLogger().setLevel( logger.Level.ERROR )

 

### PySpark 大数据处理入门 #### 一、PySpark简介 PySpark是Apache Spark提供的Python接口,使得Python开发者可以利用Spark的强大功能来执行大规模的数据处理任务。通过PySpark, 用户可以在分布式环境中运行复杂的分析操作,并且享受Python简洁语法带来的便利[^1]。 #### 二、安装配置环境 为了开始使用PySpark,在本地机器上设置好相应的开发环境是非常重要的一步。通常情况下这涉及到下载并安装Anaconda (一个流行的Python发行版),以及通过pip工具或者其他方式获取最新版本的pyspark包。对于集群部署,则需遵循特定云服务提供商或者Hadoop生态系统下的指导说明完成相应组件间的适配工作[^2]。 #### 三、基本概念介绍 - **Resilient Distributed Datasets (RDD)**: RDD是最基础也是最重要的抽象之一,代表可变、分区式的对象集合,这些对象可以从磁盘或内存中读取出来,并能够在节点之间高效传输。 - **DataFrames**: 类似于关系型数据库中的表格结构,DataFrame提供了一种更高级别的API来进行SQL风格的操作如过滤(filter), 聚合(aggregate)等;同时支持模式推断(schema inference),简化了ETL流程的设计与实现过程。 - **Spark SQL**: 这是一个用来查询存储在文件系统或其他持久化层内的半结构化/非结构化的库。借助于此特性,即使面对海量级规模的数据集也能够轻松编写出高效的SELECT语句进行检索和转换操作。 ```python from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("Example") \ .getOrCreate() df = spark.read.json("/path/to/json/file") # 显示表头信息 df.printSchema() ``` #### 四、实际案例应用 假设有一个包含用户行为日志的大文件,目标是从中提取活跃用户的统计特征。下面给出一段简单的代码片段展示如何加载JSON格式的日志记录到DataFrame里边去,并计算每天有多少同的IP地址访问过网站: ```python import datetime as dt logs_df = spark.read.json('hdfs://...') # 替换成真实的路径 active_ips_per_day = logs_df.groupBy( 'date', F.col('ip').alias('unique_ip') ).count().orderBy(['date'], ascending=[False]) active_ips_per_day.show(truncate=False) ``` 上述例子仅作为抛砖引玉之用,更多关于具体业务场景下怎样运用PySpark解决问题的内容可参阅官方文档或是其他在线资源进一步学习探索[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值