机器学习——kaggle竞赛
sqiu_11
“取乎其上,得乎其中;取乎其中,得乎其下;取乎其下,则无所得矣”
展开
-
kaggle竞赛——Titanic:Machine Learning from Disaster
题目地址:https://www.kaggle.com/c/titanic根据所提供的乘客信息,判断该乘客Survived or not?Introduction机器学习这块停了整整三个月,主要原因是一方面课题需要推进尤其是修改论文,进度特别慢,终于知道为啥修改论文要至少三个月了!另一方面,学习了数据结构与算法方面的内容,目的是提高自己编程能力,之前从未想过手编梯度下降、逻辑回归、BP原创 2017-07-12 13:13:01 · 1141 阅读 · 0 评论 -
kaggle初探——如何在 Kaggle 首战中进入前 10%
原文地址:https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/Introduction本文采用署名 - 非商业性使用 - 禁止演绎 3.0 中国大陆许可协议进行许可。著作权由章凌豪所有。Kaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提转载 2017-07-04 16:51:25 · 1388 阅读 · 0 评论 -
非数值型多分类问题——Kaggle旧金山犯罪类型分类问题
十一前面了一家公司——极智嘉(Geek++), 做物流分拣机器人的。去之前一直在考虑,还是挺兴奋的,因为终于找到一家将机器人和机器学习结合的公司(除了视觉和聊天)。但是始终没有想清楚物流分拣与数据挖掘有什么关系?换句话说,结合点在哪儿?直到和四位算法工程师交谈之后才逐渐明白。(具体做啥包括面试过程,这里先卖个关子,以后再介绍)总之,这次面试之后,我开始关注非数值型分类问题。也算是自然语言处理中文本原创 2017-10-07 17:05:42 · 3561 阅读 · 0 评论 -
提高模型识别率——偏差、方差问题
Introduction本篇是针对当凭直觉做完一个Baseline以后,如何提高现有的识别率?依然凭直觉有以下几种方法:增加训练数据集挑选出更少的特征增加其他特征增加多项式x1*x2减少或增加惩罚系数然而,事实上虽然花了大量时间完成上述工作,效果不一定好(以上一篇Titanic为例,事实证明,三天的优化,识别率下降了。。。。)。再思考一下,识别率低的原因是什么?——欠拟原创 2017-07-22 22:09:56 · 9597 阅读 · 0 评论