1、读取数据
所使用数据集来源Kaggle平台,文件大小有1.2G,包含2918万条数据,数据量太大,电脑配置不高,跑不动要卡死机。所以我这边只选取60万条数据,进行本次模型训练分析。
2、数据清洗
时间列转为时间格式,提取周、日、小时这三个有效信息,签到次数<5次的签到地点直接筛除,对于本次不具有价值
3、特征工程(标准化)
数据无量纲化,减少异常值影响
1、读取数据
所使用数据集来源Kaggle平台,文件大小有1.2G,包含2918万条数据,数据量太大,电脑配置不高,跑不动要卡死机。所以我这边只选取60万条数据,进行本次模型训练分析。
2、数据清洗
时间列转为时间格式,提取周、日、小时这三个有效信息,签到次数<5次的签到地点直接筛除,对于本次不具有价值
3、特征工程(标准化)
数据无量纲化,减少异常值影响