![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据竞赛
文章平均质量分 65
锦堇年
NLP学弱
展开
-
kaggle实战之Titanic(2)-分类器的选择与实现
数据读取和交叉验证:分别使用LR分类,决策树,随机森林 但出现一个问题是在交叉验证中提升的准确率在提交后并无提升,有待考证 datafile = load_data('train.csv') train_target,train_data = data_clean(datafile) #洗牌 r = random.randint(2147483647) ran原创 2016-03-02 09:45:54 · 1190 阅读 · 0 评论 -
kaggle实战之Titanic (1)-预处理
由数据挖掘的知识可知,数据预处理包括: (1) 数据清理:填写缺失值,光滑噪声数据等等。 (2) 数据集成:将多个数据源合成一个数据源。此处只有1个csv文件,过 (3) 数据变换:平滑聚集,数据概化等。 (4) 数据规约: 目的是减小数据量,同时又不影响结果。此处数据共891<1000行,暂不处理PassengerId 旅客ID Survived 是否活下来了,1:yes原创 2016-03-02 08:49:01 · 3175 阅读 · 0 评论 -
天池大坑-阿里音乐尝试(1)
简单尝试一下阿里音乐,最多做到baseline吧,主要是想熟悉一下流程和工具 so,第一步将数据导入SQL中,百万级有Mysql就可以了,还是习惯windows下的XAMPP+NaviCat,简单好用。 http://www.site-digger.com/html/articles/20120525/34.html原创 2016-03-16 11:13:24 · 1716 阅读 · 0 评论 -
大数据比赛(3)- 模型选择I
聊完特征,就要说说模型的选择与实现。虽然已经接触了不少机器学习方法和模型,但最近才对监督学习有了一些提纲挈领的认识,在介绍模型的同时对这些零散的知识进行简单的汇总。(谁让我健忘。。)监督学习的基本模式陈天奇大大有一篇将boost tree的文章里提到了监督学习的key concepts,抄来加深一下印象: 监督学习要素:样本(标记) 模型 参数 目标函数 优化方法 i. 模型和参数 模型指给定原创 2016-05-09 16:25:22 · 5790 阅读 · 0 评论 -
大数据比赛(2)-特征那点儿事
特征工程是一个非常重要的课题,是机器学习中不可或缺的一部分,但是它几乎很少出现于单独的机器学习的教程或教材中。所以需要在比赛的过程中多学习和体会。 1、什么是特征工程?原创 2016-04-22 16:03:27 · 4040 阅读 · 0 评论 -
大数据比赛-综述
虽然只参与了几个小型的数据比赛,成绩也十分惨淡,但还是有一些小小收获记录下来以便查阅。 1、比赛流程: 问题分析-》样本处理-》特征抽取-》模型选择/实现-》调参测试-》提交 当然,与软件工程相同,比赛的过程也是迭代进行的,每次提交之后可能就要重新走一遍流程以发现改进点。 以目前浅薄的经验来看,最重要的步骤是特征抽取、模型选择与调参,之后会进行详细介绍 2、注意事项: 1》戒骄戒躁:一两原创 2016-04-22 13:07:43 · 1251 阅读 · 0 评论 -
大数据比赛(3)- 模型选择II
常用模型概述神经网络与深度学习初步基础原创 2016-05-10 10:02:51 · 900 阅读 · 0 评论