需求一:统计imooc主站最受欢迎的课程/手记的Top N访问次数
需求二:按地市统计imcco主站最受欢迎的Top N的课程
根据IP地址提取出城市信息
需求三:按流量统计imooc主站最受欢迎的Top N的课程
数据:日志数据
提取码:l4t8
数据清洗
1.使用Spark SQL解析访问日志
2.解析出课程编号,类型
3.根据IP解析出城市信息
4.使用Spark SQL将访问时间按天进行分区输出
package com.kinglone.log
import org.apache.spark.sql.SparkSession
/**
* 第一步清洗:抽取出我们所需要的指定列的数据
*/
object SparkStatFormatJob {
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder().appName("SparkStatFormatJob").master("local[2]").getOrCreate()
val acccess = spark.sparkContext.textFile("file:///D:/test/access.log")
// acccess.take(10).foreach(println)
acccess.map(line => {
val splits = line.split(" ")
val ip = splits(0)
/**
* 原始日志的第三个和第四个字段拼接起来就是完整的访问时间:
* [10/Nov/2016:00:01:02 +0800] ==> yyyy-MM-dd HH:mm:ss
*/
val time = splits(3) + " " + splits(4)
val url = splits(11).replaceAll("\"","")
val traffic = splits(9)
// (ip, DateUtils.parse(time), url, traffic)
DateUtils.parse(time) + "\t" + url + "\t" + traffic + "\t" + ip
}).saveAsTextFile("file:///D:/test/")
spark.close()
}
}
package com.kinglone.log
import java.util.{Date, Locale}
import org.apache.commons.lang3.time.FastDateFormat
/**
* 日期时间解析工具类:
* 注意:SimpleDateFormat是线程不安全
*/
object DateUtils {
//输入文件日期时间格式
//10/Nov/2016:00:01:02 +0800
val YYYYMMDDHHMM_TIME_FORMAT = FastDateFormat.getInstance("dd/MMM/yyyy:HH:mm:ss Z", Locale.ENGLISH)
//目标日期格式
val TARGET_FORMAT = FastDateFormat.getInstance("yyyy-MM-dd HH:mm:ss")
/**
* 获取时间:yyyy-MM-dd HH:mm:ss
*/
def parse(time: String) = {
TARGET_FORMAT.format(new Date(getTime(time)))
}
/**
* 获取输入日志时间:long类型
*
* time: [10/Nov/2016:00:01:02 +0800]
*/
def getTime(time: String) = {
try {
YYYYMMDDHHMM_TIME_FORMAT.parse(time.substring(time.indexOf("[") + 1,
time.lastIndexOf("]"))).getTime
} catch {
case e: Exception => {
0l
}
}
}
def main(args: Array[String]) {
println(parse("[10/Nov/2016:00:01:02 +0800]"))
}
}