机器学习案例笔记

淼德利斯

于 2022-01-04 17:09:31 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SDFAA1/article/details/121874956

1.lambda x#首先将玩家注册日期提取出来作为单独一列
RegisterDate = data.loc[:,"玩家注册时间"].apply(lambda x: x[:10])

#单个参数的x.apply(lambda x:x[:10]) 取出x的前10个字符

2.groupby(列) 与sql用法一样对列分组聚合计算

#按照玩家注册日期对付费金额进行分组聚合平均计算
RegisterDateMean = data["付费金额"].groupby(RegisterDate).mean()

3.#RegisterWeekDayMean = data["付费金额"].groupby(RegisterWeekday).mean()

数据通过groupby后会生成一列索引 index 各分组 values 各分组聚合计算值

plt.bar(RegisterWeekDayMean.index, RegisterWeekDayMean.values)

#plt.bar(X,Y) #生成柱状图

4. 两列数据的dataframe.corr() 可以计算两列数据相关性

5.data.insert(data.shape[1]-1,"玩家注册时刻",RegisterTime)
#三个参数分别是插入列位置插入列的名称，插入列的数据

Dataframe.insert(loc, column, value, allow_duplicates=False): 在Dataframe的指定列中插入数据。

参数介绍：

loc: int型，表示第几列；若在第一列插入数据，则 loc=0

column: 给插入的列取名，如 column='新的一列'

value：数字，array，series等都可（可自己尝试）

allow_duplicates: 是否允许列名重复，选择Ture表示允许新的列名与已存在的列名重复。

6.分割训练集测试集后数据的索引会乱要养成恢复索引的好习惯

#分割完毕后需要恢复索引
for i in [Xtrain,Xtest]:
i.index = range(i.shape[0])

7. np.sqrt(MSE(Ytest,y_pred)) np

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。