1.lambda x#首先将玩家注册日期提取出来作为单独一列
RegisterDate = data.loc[:,"玩家注册时间"].apply(lambda x: x[:10])
#单个参数的x.apply(lambda x:x[:10]) 取出x的前10个字符
2.groupby(列) 与sql用法一样 对列分组 聚合计算
#按照玩家注册日期对付费金额进行分组聚合平均计算
RegisterDateMean = data["付费金额"].groupby(RegisterDate).mean()
3.#RegisterWeekDayMean = data["付费金额"].groupby(RegisterWeekday).mean()
数据通过groupby后会生成一列索引 index 各分组 values 各分组聚合计算值
plt.bar(RegisterWeekDayMean.index, RegisterWeekDayMean.values)
#plt.bar(X,Y) #生成柱状图
4. 两列数据的dataframe.corr() 可以计算两列数据相关性
5.data.insert(data.shape[1]-1,"玩家注册时刻",RegisterTime)
#三个参数分别是插入列位置 插入列的名称 ,插入列的数据
Dataframe.insert(loc, column, value, allow_duplicates=False): 在Dataframe的指定列中插入数据。
参数介绍:
loc: int型,表示第几列;若在第一列插入数据,则 loc=0
column: 给插入的列取名,如 column='新的一列'
value:数字,array,series等都可(可自己尝试)
allow_duplicates: 是否允许列名重复,选择Ture表示允许新的列名与已存在的列名重复。
6.分割训练集 测试集后 数据的索引会乱 要养成恢复索引的好习惯
#分割完毕后需要恢复索引
for i in [Xtrain,Xtest]:
i.index = range(i.shape[0])
7. np.sqrt(MSE(Ytest,y_pred)) np