1.机器学习概述。
2.kaggle上下载的文件都是csv格式的,可以直接调用python的csv库进行处理:
import csv
f = csv.reader(open('1111.csv','r'))
for i in f:
print(i)
代码结果:
['测试1', '软件测试工程师']
['测试2', '软件测试工程师']
['测试3', '软件测试工程师']
['测试4', '软件测试工程师']
['测试5', '软件测试工程师']
或者是使用pandas
f2 = pd.read_csv('./data/test.csv')
print(f2)
f2 = pd.read_csv('./data/test.csv', index_col=0)
print(f2)
3.可以对数据进行log操作处理数据的分布:
值+1,防止等于零
注意最后变回去哦!
4.数据特征:
看看哪些数据才是有数据意义的,去掉或者修改没有用的,可以减少噪音的影响。
5.数据处理:
如果是分类的数据,那么应该用one-hot
如果代表真实的值,那么应该首先看看有没有缺失,如果有缺失的话,缺失是代表什么,是0,还是可以用平均值代替。
最后为了让数据更好的分布,可以进一批标准化:
第三讲:
点击是分类问题,点还是不点啊!!!
lr:可以给出0, 1 且分别的概率。
简单kaggle竞赛:
房价预测:
https://www.kaggle.com/c/house-prices-advanced-regression-techniques
点击率:
https://www.kaggle.com/c/criteo-display-ad-challenge/
文本相似度:
https://www.kaggle.com/c/home-depot-product-search-relevance
根据新闻预测涨跌:
https://www.kaggle.com/aaron7sun/stocknews
猫狗大战:
https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition
推荐 预测:
https://www.kaggle.com/c/event-recommendation-engine-challenge
销售预测:
https://www.kaggle.com/c/rossmann-store-sales/data
非kaggle,贷款风险:
https://ai.ppdai.com/mirror/showCompetitionRisk