机器学习:kaggle入门学习一些笔记

1.机器学习概述。

在这里插入图片描述

2.kaggle上下载的文件都是csv格式的,可以直接调用python的csv库进行处理:

参考

import csv
f = csv.reader(open('1111.csv','r'))
for i in f:
    print(i)

代码结果:
['测试1', '软件测试工程师']
['测试2', '软件测试工程师']
['测试3', '软件测试工程师']
['测试4', '软件测试工程师']
['测试5', '软件测试工程师']

或者是使用pandas

f2 = pd.read_csv('./data/test.csv')
print(f2)

f2 = pd.read_csv('./data/test.csv', index_col=0)
print(f2)

3.可以对数据进行log操作处理数据的分布:

值+1,防止等于零
注意最后变回去哦!
在这里插入图片描述

4.数据特征:

看看哪些数据才是有数据意义的,去掉或者修改没有用的,可以减少噪音的影响。

5.数据处理:

如果是分类的数据,那么应该用one-hot
如果代表真实的值,那么应该首先看看有没有缺失,如果有缺失的话,缺失是代表什么,是0,还是可以用平均值代替。
最后为了让数据更好的分布,可以进一批标准化:
在这里插入图片描述

第三讲:

点击是分类问题,点还是不点啊!!!
lr:可以给出0, 1 且分别的概率。

简单kaggle竞赛:

房价预测:

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

点击率:

https://www.kaggle.com/c/criteo-display-ad-challenge/

文本相似度:

https://www.kaggle.com/c/home-depot-product-search-relevance

根据新闻预测涨跌:

https://www.kaggle.com/aaron7sun/stocknews

猫狗大战:

https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition

推荐 预测:

https://www.kaggle.com/c/event-recommendation-engine-challenge

销售预测:

https://www.kaggle.com/c/rossmann-store-sales/data

非kaggle,贷款风险:

https://ai.ppdai.com/mirror/showCompetitionRisk

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值