机器学习：kaggle入门学习一些笔记

最新推荐文章于 2024-06-06 23:03:11 发布

cc 提升ing 变优秀ing

最新推荐文章于 2024-06-06 23:03:11 发布

阅读量369

点赞数 1

分类专栏： kaggle

本文链接：https://blog.csdn.net/weixin_42721412/article/details/112750423

版权

kaggle 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.机器学习概述。

在这里插入图片描述

2.kaggle上下载的文件都是csv格式的，可以直接调用python的csv库进行处理：

参考

import csv
f = csv.reader(open('1111.csv','r'))
for i in f:
    print(i)

代码结果：
['测试1', '软件测试工程师']
['测试2', '软件测试工程师']
['测试3', '软件测试工程师']
['测试4', '软件测试工程师']
['测试5', '软件测试工程师']

或者是使用pandas

f2 = pd.read_csv('./data/test.csv')
print(f2)

f2 = pd.read_csv('./data/test.csv', index_col=0)
print(f2)

3.可以对数据进行log操作处理数据的分布：

值+1，防止等于零
注意最后变回去哦！
在这里插入图片描述

4.数据特征：

看看哪些数据才是有数据意义的，去掉或者修改没有用的，可以减少噪音的影响。

5.数据处理：

如果是分类的数据，那么应该用one-hot
如果代表真实的值，那么应该首先看看有没有缺失，如果有缺失的话，缺失是代表什么，是0，还是可以用平均值代替。
最后为了让数据更好的分布，可以进一批标准化：
在这里插入图片描述

第三讲：

点击是分类问题，点还是不点啊！！！
lr：可以给出0， 1 且分别的概率。

简单kaggle竞赛：

房价预测：

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

点击率：

https://www.kaggle.com/c/criteo-display-ad-challenge/

文本相似度：

https://www.kaggle.com/c/home-depot-product-search-relevance

根据新闻预测涨跌：

https://www.kaggle.com/aaron7sun/stocknews

猫狗大战：

https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition

推荐预测：

https://www.kaggle.com/c/event-recommendation-engine-challenge

销售预测：

https://www.kaggle.com/c/rossmann-store-sales/data

非kaggle，贷款风险：

https://ai.ppdai.com/mirror/showCompetitionRisk

cc 提升ing 变优秀ing

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习：kaggle入门学习一些笔记

1.机器学习概述。2.kaggle上下载的文件都是csv格式的，可以直接调用python的csv库进行处理：参考import csvf = csv.reader(open('1111.csv','r'))for i in f: print(i)代码结果：['测试1', '软件测试工程师']['测试2', '软件测试工程师']['测试3', '软件测试工程师']['测试4', '软件测试工程师']['测试5', '软件测试工程师']...
复制链接

扫一扫

专栏目录