机器学习案例笔记

1.lambda x#首先将玩家注册日期提取出来作为单独一列
RegisterDate = data.loc[:,"玩家注册时间"].apply(lambda x: x[:10])

#单个参数的x.apply(lambda x:x[:10]) 取出x的前10个字符

2.groupby(列) 与sql用法一样 对列分组 聚合计算

#按照玩家注册日期对付费金额进行分组聚合平均计算
RegisterDateMean = data["付费金额"].groupby(RegisterDate).mean()

3.#RegisterWeekDayMean = data["付费金额"].groupby(RegisterWeekday).mean()

数据通过groupby后会生成一列索引 index 各分组 values 各分组聚合计算值 

plt.bar(RegisterWeekDayMean.index, RegisterWeekDayMean.values)

#plt.bar(X,Y) #生成柱状图

4. 两列数据的dataframe.corr() 可以计算两列数据相关性

5.data.insert(data.shape[1]-1,"玩家注册时刻",RegisterTime)
#三个参数分别是插入列位置 插入列的名称 ,插入列的数据

Dataframe.insert(loc, column, value, allow_duplicates=False): 在Dataframe的指定列中插入数据。

参数介绍:

       loc:  int型,表示第几列;若在第一列插入数据,则 loc=0

       column: 给插入的列取名,如 column='新的一列'

       value:数字,array,series等都可(可自己尝试)

       allow_duplicates: 是否允许列名重复,选择Ture表示允许新的列名与已存在的列名重复。

6.分割训练集 测试集后 数据的索引会乱 要养成恢复索引的好习惯

#分割完毕后需要恢复索引
for i in [Xtrain,Xtest]:
    i.index = range(i.shape[0])

7. np.sqrt(MSE(Ytest,y_pred)) np

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值