既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
目录
1.文件下载
- 数据
- 淘宝用户购物行为数据集 https://tianchi.aliyun.com/dataset/649
- 完整数据文件UserBehavior.csv,3.42G https://pan.baidu.com/s/1Y_RKr_Dw2dcnUJR4m3LHzw 提取码:p8gz
- 小测试文件 UserBehaviorSmall.csv 18M
https://pan.baidu.com/s/1CpiGrNSGkA0KVLxxmVcg8Q 提取码:hnaq - 缩减版数据
https://pan.baidu.com/s/1WEtY1aDrlsTz5dntKNjkqA 提取码:onaz
数据集包含了约一亿条随机用户的所有行为:
- 数据集的每一行表示一条用户行为:用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
- 行为类型:点击pv、购买buy、加购cart、fav收藏
- 操作代码: 用Spark进行用户行为分析
可以点击上面这个链接直接下载代码,我分了4个代码文件,按照我写的注意事项进行操作即可。
本文是记录我学习pyspark操作小实验,仅供参考,欢迎指正与讨论!
2.上传文件
下载好文件并且上传到虚拟机:
由于本人虚拟机运行不了大文件,所以改用jupyter notebook:
3.数据预处理
1)原始文件时间戳数据转换为datetime类型,能按日期和时间进行查找。
import numpy as np
import pandas as pd
import pyspark
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext('local')
spark = SparkSession(sc)
print(type(spark))
url = 'D:\\Jupyter\_notebook\\dsj\\UserBehavior.csv'
# 读取CSV文件并将其存储为DataFrame对象
df = pd.read_csv(url, header=None)
# 将时间戳数据转换为datetime类型,并将其存储在一个新的列中
df[4] = pd.to_datetime(df[4], unit='s')
df.head(10)
# 转成新的两列
df[5] = df[4].dt.hour
df[6] = df[4].dt.strftime('%Y/%m/%d')
# 删除第四列
df = df.drop(columns=[4])
# 第六列赋值给第四列
df[4] = df[6].copy()
# 删除第6列
df = df.drop(columns=[6])
# 改列名
df = df.rename(columns={
0: "user\_id", 1: "product\_id", 2: "product\_category", 3: "action", 4: "date", 5: "hour"})
# 查看列名
print(df.columns)
df.head(10)
2)删除不正常数据(例如日期不是2017年的)
# 删除重复行
df.drop_duplicates(inplace=True)
# 检查该列是否包含NaN
print(df[4].isnull().sum())
由于本人电脑内存不足,所以到这里先把前面处理好的数据保存到本地,不然电脑会崩溃
df.to_csv('D:\\Jupyter\_notebook\\dsj\\UserBehavior1.csv',index=False)
新建一个文件,处理刚才存下来的新文件
# 将 date 列转换为 datetime 类型
df['date'] = pd.to_datetime(df['date'])
# 将 hour 列转换为 datetime 类型
df['hour'] = pd.to_datetime(df['hour'])
# 转换为只包含小时的字符串类型
# df['hour'] = df['hour'].dt.strftime('%H')
# 把日期不是2017年的全部删除
df = df.loc[df['date'].dt.year == 2017]
3)字段解析
print(df.dtypes)
print(df.head(5))
4)生成RDD
rdd = sc.textFile(url).map(lambda line:line.split(','))
由于notebook运行rdd的时候报错了,所以后面所有rdd相关操作都用databricks运行,而DF和sparkSQL语句则用notebook,因为用虚拟机的时候崩溃了
5)生成DataFrame
第一种
from pyspark.sql.types import StructField,StructType,IntegerType,StringType
from pyspark import Row
# 生成表头
fields=[StructField('user\_id',IntegerType(),True),
StructField('product\_id',IntegerType(),True),
StructField('product\_category ',IntegerType(),True),
StructField('action',StringType(),True),
StructField('hour',IntegerType(),True),
StructField('date',StringType(),True)]
schema=StructType(fields)
# 生成“表中的记录”
data1 = rdd.map(lambda line:Row(int(line[0]),
int(line[1]),
int(line[2]),
line[3],
int(line[4]),
line[5]))
# 把“表头”和“表中的记录”拼接在一起
df=spark.createDataFrame(data1,schema)
df.printSchema()
df.cache()
![img](https://img-blog.csdnimg.cn/img_convert/b96494b00444f699fb5233583536f69f.png)
![img](https://img-blog.csdnimg.cn/img_convert/ead542c8cdc1375a218c397d5eb2a48b.png)
**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**
**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
03910)]
[外链图片转存中...(img-aL8KdkVX-1715579703911)]
**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**
**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**