看看滴滴大牛是如何从码农到AI的华丽转身

最新推荐文章于 2024-03-05 07:50:49 发布

Python技术博文

最新推荐文章于 2024-03-05 07:50:49 发布

阅读量1.2k

点赞数

作者简介

网名：小猪观察员，来自浙江大学软件工程的硕士研究生。在滴滴研究院大数据领航项目中扮演核心成员，是位资深数据挖掘、数据分析专家；

来自大神的自述：　

“本人码农一枚，因公司需要开发用户画像，开始接触机器学习。然后打开了另一扇门。个人认为机器学习对于码农来说应该是一门必修课，就犹如java一样，未来的开发中，机器学习会更加的普遍，成为一个个插件。

从2017年5月27日，在柯洁与阿尔法围棋的人机大战之后。深度学习火遍了整个业界。从2013年开始，机器学习就已经开始升温，只是在alphgo之后进入白炽化。本文主要是从一个码农的角度介绍如何入手学习机器学习，如有不妥之处，还望指点。”

机器学习关键

机器学习关键是要弄明白四点： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/

机器学习定义

何为机器学习，何为学习。如果一个系统能够通过执行它的过程，而改善其性能，这就是学习。机器学习也有其他定义， “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”

人类的学习又是如何的呢？当我们学习一个个单词，学习数学，几何，历史等等，识别他人的声音，辨别物体。形式化的说，我们大脑获取外界输入，听觉、视觉、触觉、味觉、嗅觉等输入信号，经过大脑神经网络处理，信号转换为相应特征，最后转换成知识存储大脑中。最后进行各种行为反应。

机器学习分类

机器学习从学习方法上，分为监督学习、非监督学习、强化学习以及半监督学习。

监督学习

监督学习，是对于训练集有相应的正确输出。比如给定一组数据x:{房屋面积、朝向、精装修否}，Y{房价}。然后给定一套房子的面积、朝向，输出房价。监督学习有如下两类：

分类问题,比如我们要从一堆人中辨别谁是好人，谁是坏人。这就是分类问题。简单的讲就是对一个问题，我们将其离散化到一个维度上。手写识别，典型的数据集是：[MNIST](http://yann.lecun.com/exdb/mnist/)。

回归问题,比如预测明天的温暖，根据今天以及最近一周的情况，给出明天的气温，湿度等。The target output is a real number or a whole vector of real numbers。

常用的监督学习算法有：xgboost、gbdt、LR、决策树、SVM、贝叶斯分类器、k邻近等。当然深度学习也可以算作是监督学习，比如卷积神经网络进行手写识别。

非监督学习

非监督学习，其实到现在为主基本数被忽略的对象，在未加标签的数据中，试图找到隐藏的结构。因为提供给学习者的实例是未标记的，因此没有错误或报酬信号来评估潜在的解决方案。因为就是给一堆数据给你，没有标记这个数据是好还是坏，一般采用聚类的方式。比如常见的k-means聚类、密度聚类等。

非监督学习可以用来降维，如LDA(线性判别分析)、PCA(主成分分析)。

强化学习

强化学习我这里采用Geoffrey Hinton 的定义：In reinforcement learning, the output is an action or sequence of actions and the only supervisory signal is an occasional scalar reward. 比如我们要训练机器下棋，电脑输出一个步骤，返回出这个棋局的好坏，如此反复循环，直到电脑能够记住怎么下棋才是好琪。

常用的有蒙特卡洛强化学习、模仿学习等

学习资料进阶

作为一个从码农到学习机器学习的过程中，也是一个自我学习，自我探索的过程。

数学知识是必备的：线性代数、概率论、高等数数学，当然其他的比如信息论，统计学，能多学点就多学点喽

推荐如下的学习资料：

[统计学习方法](https://item.jd.com/10975302.html)

[机器学习](https://item.jd.com/11867803.html)

[深度学习](https://item.jd.com/13188291644.html)

MLAPP及PRML,参考链接：https://www.52ml.net/11578.html

视频推荐

Geoffrey Hinton ：https://www.coursera.org/learn/neural-networks/home

Andrew Ng： https://www.coursera.org/learn/machine-learning/home

林轩田：https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/

看完这些差不多入门了，要想进一步提升，

**看论文

看论文

看论文**

https://arxiv.org/pdf/1603.02754.pdf

https://www.researchgate.net/publication/220416607_Distributed_Optimization_and_Statistical_Learning_via_the_Alternating_Direction_Method_of_Multipliers

https://arxiv.org/

http://www.gitxiv.com/ 这个网站中是有源代码的，在git上可以找到。

等等

如果有关于学习、工作或者行业相关的问题想问大牛的，可以留言哦；小编汇总后会为您们专门咨询他哦。

今日赠言

相见即缘，留下您的脚步，分享您的行程！

推荐阅读：

python量化学习篇

python学习篇

机器学习篇