图灵的猫.-CSDN博客

原创「01」机器学习与深度学习，到底在学些什么？

根据定义，学习是从有限的例子中，找出问题和答案之间规律的一个过程，而所找出的规律叫做知识，而知识，在我们的意识层面上叫做知识，但在数学层面，它的名字叫做模型。经过千万年的进化，人类已经可以熟练利用大脑神经元所组成的生物记忆网络，将感官收集到的信号，如图像、物体、声音、文字，通过长短期的记忆机制进行保存。通过这些信息，大脑会推演出下一个类似情况、问题发生时，我们该做出的反应。这些反应有先天的，比如面对狮子时，我们的祖先遗留下来的对死亡的基因恐惧，驱使大脑发出逃离的指令。...

2020-05-31 12:35:17 4160 2

原创从架构到算法到赋能业务，关于国际化电商技术链路的最完整分享【Lazada技术开放日】

从架构到算法到赋能业务，关于国际化电商技术链路的最完整分享【Lazada技术开放日】开题电商技术经过多年发展，在国内外市场都有了不同的技术路线，数据、算法、前端……各有千秋，但核心玩法却万变不离其宗。对于从事互联网，尤其是电商相关平台的技术、管理以及运营同学来说，找到一个体系完善、干货满满的分享是件收益很大的事情。作为互联网从业者，在看过不少大厂的相关技术分享后，今天给跨境电商感兴趣的同学推荐一期Lazada的【技术开放日】，看过之后会更深入理解技术如何最大程度赋能业务，领会技术工作..

2021-08-25 23:24:19 3566

原创「15」支持向量机Python实战篇——蓝瘦香菇到底有没有毒？

我们通过SVM的数学原理讲解了这个最常见的机器学习算法。这一篇我们用一个非常简单的python实战项目来练习一下SVM并加深理解。

2020-05-24 11:27:51 3657 1

原创「14」支持向量机——我话说完，谁支持？谁反对？

1. 支持向量1.1 线性可分首先我们先来了解下什么是线性可分。在二维空间上，两类点被一条直线完全分开叫做线性可分。严格的数学定义是：1.2 最大间隔超平面从二维扩展到多维空间中时，将 d0 和 d1 完全正确地划分开的 y = wx + b 就成了一个超平面。为了使这个超平面更具鲁棒性，我们会去找最佳超平面，以最大间隔把两类样本分开的超平面，也称之为最大间隔超平面。两类样本分别分割在该超平面的两侧；两侧距离超平面最近的样本点到超平面的距离被最大化了。..

2020-05-24 11:21:56 2966

原创 5月博客恢复更新的通知

DEAR 粉丝，前段时间比较忙，博客停更了几个月，加上又在B站做视频，文章也没怎么写。这个月开始恢复博客更新，订阅算法入门系列的小伙伴可以继续了~另外大家有什么想看的主题也可以评论或者私信给我，我会挑一些写博文图灵的猫2020.5.10...

2020-05-10 17:31:10 1727 1

转载滴滴是如何对用户和司机进行派单匹配的？

说到滴滴的派单算法，大家可能感觉到既神秘又好奇，从出租车扬召到司机在滴滴平台抢单最后到平台派单，大家今天的出行体验已经发生了翻天覆地的变化，面对着每天数千万的呼叫，滴滴的派单算法一直在持续努力让更多人打到车，本篇文章会着重介绍我们是如何分析和建模这个问题，并且这其中面临了怎样的算法挑战，以及介绍一些我们常用的派单算法，这些算法能够让我们不断的提升用户的打车确定性。1.为什么我们需...

2020-02-29 16:48:42 9432

原创「13」朴素贝叶斯Python实战：计算打喷嚏的工人患病的概率

上一期文章：「12」你们啊，naive！——朴素贝叶斯谈笑录中，我们剖析了朴素贝叶斯算法的本质和特点以及贝叶斯学派的一些知识。这里我们用python代码进行Naive Bayes算的的实现。第1部分是计算打喷嚏的建筑工人患上新冠肺炎的概率，第2部分是上一期文章中提到的西瓜分类实战项目。实战项目一、计算打喷嚏的建筑工人患上新冠肺炎的概率有多大？class NBClassif...

2020-02-28 14:58:04 3730 2

转载最全知乎专栏合集：爬取11088个知乎专栏，打破发现壁垒（编程、python、爬虫、数据分析..）

最近逛博客，看到一篇很好的文章，整合了知乎上所有优秀的编程、算法专栏，对学习的帮助非常大，转载过来分享给大家：众所周知，知乎官方没有搜素专栏的功能，于是我通过爬取几十万用户个人主页所关注的专栏从而获取到11088个知乎专栏。本回筛选出其中涉及：编程、python、爬虫、数据分析、挖掘、ML、NLP、DL等关键词的专栏，按照排名、关注人数、专栏名称、专栏简介等顺序，罗列出史上...

2020-02-22 22:54:14 5559 1

原创回顾|腾讯AI打败王者荣耀职业队，AI训练一天等于人类440年

2019年8月2日，腾讯策略协作型AI「绝悟」，战胜了王者荣耀职业选手。事情发生在吉隆坡世界冠军杯半决赛，期间有一场特殊的对决上演：5v5水平测试。五位电竞顶尖高手组成赛区联队：曹操（eStarPro-XIXI）、娜可露露（EMC-Sun）、武则天（Nova-Seek）、狄仁杰（KZ.Night）、张飞（M8HEXA-Mike）。腾讯AI绝悟（Wukong）：达摩（AI_001）、雅...

2020-02-19 22:48:56 3110

原创「11」Python实战篇：利用KNN进行电影分类

上一期文章：「10」民主投票法——KNN的秘密中，我们剖析了KNN算法的本质和特点、局限。这里我们用python代码进行KNN的实现。第1部分是KNN的基础算法步骤，第2部分是一个电影分类的实战项目。OK, let's begin~KNN算法实现 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 4 import csv ...

2020-02-14 21:06:17 6701 2

原创「10」民主投票法——KNN的秘密

KNN，全称是K-Nearest Neighbor，也就是最近邻算法。这个算法虽然没有雅典制度那么历史悠久，但也比我们想象的要古老。Cover 和 Hart 早在 1968 年就提出了最初的邻近算法，用于解决分类的问题。我们在前几期提到了分类问题的本质，大家可以回忆一下当作复习。它是所有机器学习分类算法中最简单的方法之一，如果你已经回忆了前几期的文章，那么一定会反应过来，它同时也可以被用来做回归算法。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。...

2020-02-14 21:04:45 2391

原创「09」真损啊！——损失函数与极大似然估计

前言上期文章：「07」回归的诱惑：深入浅出逻辑回归中，我们介绍了逻辑回归的原理，组成和优缺点，并探讨了分类的本质含义。在这一期，我们会继续07的部分，从逻辑回归开始，引出机器学习中最重要的概念——参数学习。还记得我们的线性回归是如何学习直线方程参数的吗？最小二乘法（多元情况下叫做正规方程）梯度下降法关于梯度下降，在之后的优化方法综述中会详细讲述，这里我们聚焦参数学习的本质—...

2020-02-01 17:02:19 4872

原创「08」回归的诱惑：深入浅出逻辑回归（Python实战篇）

在上一篇文章「07」回归的诱惑：深入浅出逻辑回归里，我们详细解释了什么是分类算法以及逻辑回归、逻辑回归的特点，这一期给出实战案例的Python代码，供大家参考第一步导入数据from collections import OrderedDictimport pandas as pd#数据集examDict={ '学习时间':[0.50,0.75,1.00,1.25...

2020-01-21 18:17:49 2055

原创「07」回归的诱惑：深入浅出逻辑回归

前言上期文章：「05」回归的诱惑：一文读懂线性回归中，我们介绍了线性回归的原理，组成和优缺点，并探讨了回归的本质含义。在这一期，我们将从回归开始，引出一个机器学习中最重要的任务——分类。还记得我们上一节的课后题吗？其实答案很简单，任意一条线都可以把任意的数据点分为不同的类，也就是有无数个直线方程存在，这种解并没有意义。这就引出了我们的主题——分类。对于分类问题来说，不同的数据必须分为...

2020-01-21 18:14:11 2343

原创「06」回归的诱惑：一文读懂线性回归（Python实战篇）

在上一篇文章「05」回归的诱惑：一文读懂线性回归里，我们详细解释了什么是线性回归，以及线性回归的特点，这一期给出实战案例的Python代码，供大家参考回归实战第一步导入数据from collections import OrderedDictimport pandas as pd#数据集examDict={ '学习时间':[0.50,0.75,1.00,1....

2020-01-19 20:19:36 2346

原创「05」回归的诱惑：一文读懂线性回归

前言从这一篇文章开始，就正式进入「美团」算法工程师带你入门机器学习系列的正文了，之前的几篇算是导读和预热，想必大家看的并不过瘾。从这里开始，我们将会以线性回归为起点，贯通回归方法在机器学习算法中所扮演的角色、具有的功能和使用的方法。说起回归，它是我们在高中时就接触过的内容。具体的，回归（Regression）是指研究一组随机变量(Y1 ，Y2 ，…，Yi)和另一组随机变量(X1，X2，…，......

2020-01-19 20:18:15 2564 1

原创 AI漫谈：我们距离实现《庆余年》里的五竹叔机器人还有多远？

下方视频是波士顿动力公司产品10年发展对比，10年时间，机器人运动能力从简单的行走，进化为丰富多彩的动作，各方面逐渐逼近或超越人类。目前机器人，无论沙特的Sofia还是日本的Erica，第一眼看去都与人类高度相似。但庆余年中五竹叔也不曾展示眼睛(小说结尾有展示，与人类眼睛确有差异)，所以只看外表仿生，我们已经实现与五竹相同的水平。综上来看，想制造一个能像五竹叔一样的机器人，且不说武功卓绝，只是实现看似人类最基础的能力，也是遥遥无期。毫无疑问，五竹叔是高级的类人机器人，人类具有的物理功能，五竹一应俱全。

2020-01-19 11:44:30 2206

原创有哪些让人相见恨晚的Python库（一）

对于我这个经常用python倒腾数据的人来说，下面这个库是真·相见恨晚记得有一次我在服务器上处理数据时，为了解决Pandas读取超过2000W条数据就内存爆炸的问题，整整用了两天时间来优化。最后通过数据转换，数据类型，迭代读取和GC机制解决了（具体方法在我的博客：Python优化之使用pandas读取和训练千万级数据）我一直觉得python处理大规模数据是真的不行，除非上Hadoop。直到...

2020-01-16 12:54:58 2418

原创 GitHub 标星 2.4w+，最适合编程新手入门的宝藏项目推荐

照惯例这周给大家推荐几个Github上高星的优秀项目，我的github：图灵的猫，也欢迎大家follow~下面这是第一个，也是首推的新手入门项目，以前我入门的时候如果有这样一个项目，知识广度和深度都会比现在更好啦，当然现在看也不晚。一起来瞅瞅吧在项目中，内容每月 28 号以月刊的形式更新发布，这是一个面向编程新手、热爱编程、对开源社区感兴趣人群的项目，内容每月 28 号以月刊的形...

2020-01-13 14:00:49 5542

原创「04」机器学习、深度学习需要哪些数学知识？

入门避坑指南自学三年，基本无人带路，转专业的我自然是难上加难，踩过无数坑，走过很多弯路。这里我整理了一下自己踩过的坑，供大家参考。1. 不要从头开始学数学如果不是一点数学都不会，你没有必要从零学起。用上个把月，把微积分、线性代数、以及概率统计复习一遍就够了。我自己因为没有学过高数，所以花了半年时间，甚至读了数学分析、泛函分析和测度论这样的教材。现在回想起来，其实学到的大部分知识并没有在后...

2020-01-08 22:47:27 6385 3

原创「03」机器学习、深度学习该怎样入门？

最后一步，自我实践，顾名思义就是通过代码将所学算法实现，现如今python和tensorflow的封装API以及各种库、包已经十分完善，我个人的建议是，除非是算法底层架构开发方向的人员，否则没有必要从0开始编写一个算法（比如在某本中文教材中，作者连numpy或pandas都不用），适当的借助工具，如可以让自己的学习经验更加的实用化，同时也加强对算法的理解。很多答案下的书单都很好，但并不适合所有人，如果你是数学专业，那么大多数书你并不用看，如果你和我一样是人文类专业，那么除了那些书，你还需要看很多。

2020-01-08 22:45:07 2669

原创来了！最详细2019实习生退税完全攻略（适用于所有实习过的同学）

前言记得2019年在某BAT实习的时候，曾经跟同学们讨论过实习生缴税的问题。因为很多同学都是只身来公司实习，一个月工资不过几千，缴税就要将近800元。京城寸土寸金，交完房租真的就不剩多少了。有的人可能会觉得，实习工资不过是附加，要真正学到东西才最重要。话没错，不过呢，自己法律权利应得的钱，还是要争取的！好在当时，好心的HR小姐姐帮我们询问，税务局给的答复是“2020年就会...

2020-01-03 17:54:48 26135 4

转载机器学习入门到进阶十本好书推荐

机器学习作为近期人工智能领域的热点话题一直被广大知乎讨论，我也一直收到很多私信咨询有哪些好的书籍适合自己进行阅读学习。机器学习专业出版社：异步社区，为大家带来十本经典机器学习相关书籍，分别适合入门、进阶到精深的三个不同阶段同学阅读，并且每本书籍都由异步社区机器学习相关编辑同学标注了适合阅读人群：Python高性能编程Python高性能编程-图书 - 异步社区本书适合初级和中...

2020-01-03 13:39:38 4453 1

转载强化学习通俗导论（一）：什么是强化学习

Q Learning 的算法框架和 SARSA 类似, 也是让系统按照策略指引进行探索，在探索每一步都进行状态价值的更新。而这时，强化学习会在没有任何标签的情况下，通过先尝试做出一些行为得到一个结果，通过这个结果是对还是错的反馈，调整之前的行为，就这样不断的调整，算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。有一种走法是这样的，在 A 时，可以选的 (B, C, D, E)，发现 D 最优，就走到 D，此时，可以选的 (B, C, F)，发现 F 最优，就走到 F，此时完成任务。

2020-01-03 10:23:26 35982 5

原创看完知乎上500条答案，我为大家整理了这21个B站学习类UP主

原文之前发在我的知乎，转载请注明出处。虽然，今天算法文章还没更新┏(゜ロ゜;)┛，但还是溜过来跑个题~之前看到了博客上有小伙伴在分享自己的B站资源，才突然意识到自己其实也积攒了很多优秀UP的资源。我自己在B站虽然有账号，但是视频做的不多，因为刚来知乎很多答案还在准备写，之后会把视频接着做下去。这篇文章整合了很多学习类的资源，因为我在B站待了几年也算是比较熟悉，大家可以参考参考：...

2020-01-03 10:23:07 12696 3

原创再见，Python2。你好，Python3

Python2的退场，意味着一个时代的结束我们这一代程序员基本都接触过python2，很多人也是从python2时代一路走来的。但是，是时候说再见了。虽然Python之父两年前就已宣布 Python 2.7将于2020年1月1日终止支持，但是关于版本的争论从未停止。现在，python2停止更新的这一天已到来，亦即意味着开发者将不会再接收到任何来自Python 2.7的错...

2020-01-02 21:31:39 1100

原创别怕，“卷积”其实很简单

首先给大家讲一个关于卷积的小故事：小明是杭州某互联网大厂的员工，每天996十分辛苦，但小明最近爱上了打台球，经常不在工位。这天，小明的主管让小明改一个需求，小明却到楼下找产品部小丽打台球去了，被主管发现，他非常气愤，扇了小明一巴掌（注意，这就是输入信号，脉冲）。于是小明脸上会渐渐地（贱贱地）鼓起来一个包，小明的脸就是一个系统，而鼓起来的包就是小明的脸对巴掌的响应。好，这样就和信号系统建立起来意义对应的联系。

2020-01-02 11:47:03 2615 1

原创零样本或少样本相关论文、数据集、代码、资源整理分享

零样本学习（Zero-Shot Learning）是AI识别方法之一。简单来说就是识别从未见过的数据类别，即训练的分类器不仅仅能够识别出训练集中已有的数据类别，还可以对于来自未见过的类别的数据进行区分。这是一个很有用的功能，使得计算机能够具有知识迁移的能力，并无需任何训练数据，很符合现实生活中海量类别的存在形式。在传统图像识别任务中，训练阶段和测试阶段的类别是相同的，但每次为了识别新类别的...

2020-01-02 11:38:10 2812

原创《沉浸式线性代数》完整版正式发布，全交互式体验

两个月前，我介绍过一本非常棒的在线线性代数教程，名为《Immersive Linear Algebra》，该教材最大的特点就是可交互式！当时这本书作者还没有更新完。撒花！时隔两个月之后，这本独具特色的线性代数教程终于完结了！下面，让我们一起来好好了解一下这本优秀的教程吧~这份线性代数教程严格地说不是一本书，而是一份在线教程。首先放上该在线教程的阅读地址：Immersive...

2020-01-02 11:31:39 1588

原创李沐老师的PyTorch 版《动手学深度学习》PDF 开源了（全中文，支持 Jupyter 运行）

李沐，亚马逊 AI 科学家，也是我在Amazon实习时的大BOSS。由李沐、Aston Zhang 等人合力打造的《动手学深度学习》正式上线，免费供大家阅读。这是一本面向中文读者的能运行、可讨论的深度学习教科书李沐的这本《动手学深度学习》也是使用 MXNet 框架写成的。但是很多入坑机器学习的萌新们使用的却是 PyTorch。如果有教材对应的 PyTorch 实现代码就更好了~撒花，最...

2020-01-02 11:25:08 19887 1

原创如何高效地学习机器学习算法？

最后一步，自我实践，顾名思义就是通过代码将所学算法实现，现如今python和tensorflow的封装API以及各种库、包已经十分完善，我个人的建议是，除非是算法底层架构开发方向的人员，否则没有必要从0开始编写一个算法（比如在某本中文教材中，作者连numpy或pandas都不用），适当的借助工具，如可以让自己的学习经验更加的实用化，同时也加强对算法的理解。按照传统教程的惯例，一上来就抛一大堆公式，不要说初学者了，我自己也看不下去，所以在这个系列中，我会尽量少一些空话和无用理论，把干货浓缩，取长补短。

2020-01-01 21:57:37 2312 1

原创「01」机器学习，到底在学些什么？

这是参加原力计划单独投稿的，是我专栏文章的part 22. 机器学习，到底在学些什么？2.1 什么是学习？根据定义，学习是从有限的例子中，找出问题和答案之间规律的一个过程，而所找出的规律叫做知识，而知识，在我们的意识层面上叫做知识，但在数学层面，它的名字叫做模型。2.2 什么是机器学习？经过千万年的进化，人类已经可以熟练利用大脑神经元所组成的生物记忆网络，将感官收...

2020-01-01 21:54:43 1678

转载 LeetCode经典算法精解-字符串编辑距离

　　字符串的编辑距离也被称为距Levenshtein距离（Levenshtein Distance），属于经典算法，常用方法使用递归，更好的方法是使用动态规划算法，以避免出现重叠子问题的反复计算，减少系统开销。《编程之美》一书中3.3节中计算两个字符串的相似度，归根到底也是要求两个字符串的距离，其中问题是这样提出的：　　许多程序会大量使用字符串。对于不同的字符串，我们希望能够有办法判断其相...

2019-07-19 12:17:44 2211

转载详解tensorflow数据读取-tf.train.string_input_producer和tf.train.start_queue_runners

一、tensorflow读取机制图解首先需要思考的一个问题是，什么是数据读取？以图像数据为例，读取数据的过程可以用下图来表示：假设我们的硬盘中有一个图片数据集0001.jpg，0002.jpg，0003.jpg……我们只需要把它们读取到内存中，然后提供给GPU或是CPU进行计算就可以了。这听起来很容易，但事实远没有那么简单。事实上，我们必须要把数据先读入后才能进行计算，假设读入用...

2019-06-28 16:44:37 3083

转载 BPTT算法推导以及LSTM是如何解决梯度消失的

在博客里看见的一个非常有用的推导过程，自己记录一下之后复习用：下面贴一下笔记：

2019-05-11 11:17:11 1116

转载一文读懂HBase的存储模式--BigTable

摘要 Bigtable 是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的 PB 级的数据。Google 的很多项目使用 Bigtable 存储数据，包括 Web 索引、 Google Earth、Google Finance。这些应用对 Bigtable 提出的要求差异非常大，无论是在数据量上（从 URL 到网页到卫星图像）还是在响应速度上（从后端...

2019-03-09 21:28:21 2415

原创 FTRL在线学习算法的前世今生-从SGD到TG再到FOBOS与RDA

牛顿和拟牛顿等方法一般对于光滑的正则约束项（例如2范数）效果很好，据说是求解2范数约束的逻辑回归类问题最好的方法，应用也比较广，但是当目标函数带L1非光滑、带不可微点的约束项后，牛顿类方法比较无力，理论上需要做修改。（后面会看到其实很多都是这种混合正则化的格式，而且是有一定直观含义的）。迭代公式中：gt是loss函数（单点的loss，未加和）的subgradient，与gt相加的那一项是混合正则化项中的第二项的梯度，投影集合C是约束空间（例如可能是1范数的约束空间），跟上面介绍的投影梯度下降类似的做法。

2019-02-28 17:54:50 1889

TA关注的人

支持向量机通俗导论(SVM三层境界)-2018最新LaTex版

最优化：GMRES算法

An Introduction to Statistical Learning with R

Matrix CookBook

利用Python进行数据分析（高清中文版）

2017留学行业大数据报告

机器学习：迫近算子

TCP/IP简明教程

Python新闻标题挖掘小项目

Kronecker克罗内克积

刚学C，写了一个用指针作为参数的函数返回最大值，无法执行