【Spark】使用Spark清洗日志数据(一)

使用Spark清洗日志数据(一)

具体要求

有一些较为杂乱的数据需要清洗,现在需要将其完成下列操作

取出IP,生成只有一个IP的数据集
简单清洗
统计IP出现的次数
排序,按照IP出现的次序排序
取出前十

数据展示
在这里插入图片描述

代码实现

import org.apache.commons.lang3.StringUtils
import org.apache.spark.{SparkConf, SparkContext}

object AccessLogTest {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[6]").setAppName("AccessLogTest")
    val sc = new SparkContext(conf)
    val sourceRDD = sc.textFile("data/access_log_sample.txt")
    //取出IP赋予词频1
    val ipRDD = sourceRDD.map(item => (item.split(" ")(0),1))
    .filter(item => StringUtils.isNotEmpty(item._1))//去除掉item中第一个(也就是value,IP)为空的数据
    .reduceByKey((curr,agg)=>curr + agg)//统计IP出现的次数
    .sortBy(item => item._2,ascending = false)//按照第二项进行牌序(默认是升序),false是降序
    .collect().take(10)//收集结果,只取出前十

    ipRDD.foreach(item => println(item))
  }
}

结果展示

在这里插入图片描述

Spark数据清洗数据科学和机器学习的基础,有助于提高模型的准确性和性能。以下是使用Spark进行数据清洗的方法和相关实践: ### 数据清洗方法 - **预处理**:使用Spark SQL数据清洗功能,对数据进行预处理,消除噪声、填充缺失值、去除重复数据等[^1]。 - **数据质量分析**:识别缺失值、异常值、重复数据等,进行格式标准化,如统ID格式、日期格式、字符串格式等;还可进行类型转换,安全转换数据类型[^3]。 - **缺失值处理**:填充默认值或统计值,以保证数据的完整性[^3]。 - **异常值处理**:采用限制范围或替换的方式处理异常值[^3]。 - **类别值标准化**:修正拼写错误和大小写,使数据格式统[^3]。 - **数据验证**:确保清洗数据的质量,保证数据的准确性、完整性、致性和有效性[^1][^3]。 ### 数据清洗实践 - **电商订单数据清洗**:通过电商订单数据清洗示例,展示了Spark数据清洗中的强大能力,涵盖数据质量分析、格式标准化、类型转换、缺失值处理、异常值处理、类别值标准化和数据验证等方面[^3]。 - **日志数据清洗**:在处理日志数据时,先使用Flume将产生的Web日志写入到HDFS,然后使用Spark、Hive或MapReduce进行数据清洗,将结果存储到HDFS的Hive/Spark SQL表中。后续还可按照业务逻辑进行统计分析,将处理结果入库到RDBMS(如MySQL)或NoSQL(如HBase、Redis),最后通过图形化工具(如Echarts、HUE、Zeppelin)进行数据可视化展示[^5]。 ### 代码示例 以下是个简单的使用Spark进行数据清洗的Python代码示例,用于去除重复数据: ```python from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession.builder.appName("DataCleaningExample").getOrCreate() # 读取数据 data = [("Alice", 25), ("Bob", 30), ("Alice", 25)] columns = ["Name", "Age"] df = spark.createDataFrame(data, columns) # 去除重复数据 cleaned_df = df.dropDuplicates() # 显示清洗后的数据 cleaned_df.show() # 停止SparkSession spark.stop() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值