- 博客(24)
- 资源 (36)
- 收藏
- 关注
原创 【概率统计】统计学符号大全
希腊字母 符号 名称 符号 名称 检验水准,显著性水准;第一类错误的概率 1- 可信度,置信度 第二类错误的概率;总体回归系数 1- 检验效能,把握度 ν() 自由度 总体率 总体均数 总体相关系数 求和的符号 ...
2018-07-31 17:15:00 59933
原创 【机器学习】机器学习常见符号
机器学习常见符号 符号 名称 符号 名称 R 实数集 Rn n维实数向量空间 H 希尔伯特空间 X 输入空间 Y 输出空间 x∈X 输入,实例 y∈Y 输出,标记 X 输入随机变量 Y 输出随机变量 T={(x1,y1),(x2,y2),···,(xN,yN)}...
2018-07-31 17:14:34 4052
翻译 【机器学习】WTF是偏差 - 方差权衡吗?
课后无意中听到:“Bias-Variance Tradeoff听起来不像历史纪录片中的条约名称吗?”好吧,这很公平......但它也是 有监督的机器学习和预测建模理解的最重要的概念之一。不幸的是,因为它通常是通过密集的数学公式来教授的,所以它赢得了很高的声誉。但正如你在本指南中看到的那样,它并没有那么糟糕。实际上,Bias-Variance权衡关于模型复杂性,过度拟合和欠拟合具有简单...
2018-07-30 11:27:26 2264
翻译 【机器学习】机器学习算法的优缺点
在本指南中,我们将通过现代机器学习算法进行实用,简洁的介绍。虽然存在其他这样的列表,但它们并没有真正解释每种算法的实际权衡,我们希望在这里做。我们将根据我们的经验讨论每种算法的优缺点。对机器学习算法进行分类是棘手的,有几种合理的方法; 它们可以分为生成/判别,参数/非参数,监督/无监督等。例如, Scikit-Learn的文档页面按其学习机制对算法进行分组 。 这产生了如下类别:广...
2018-07-30 11:19:11 8136
翻译 【机器学习】降维算法的优劣
欢迎阅读我们的现代机器学习算法的第2部分。在这一部分中,我们将介绍降维的方法,进一步分为特征选择和特征提取。通常,这些任务很少单独执行。相反,他们经常预处理步骤以支持其他任务。如果你错过了第1部分,你可以在这里查看。它解释了我们的分类算法方法,它涵盖了“三大”机器学习任务:回归 分类 聚类在这部分中,我们将介绍:特征选择 特征提取我们还将在未来的专用指南中介绍其他任务,如密度...
2018-07-30 11:15:02 12785
翻译 【机器学习入门系列】第七章 机器学习的下一步学习
欢迎阅读我们的7部分数据科学和机器学习小型课程的最后一章。我们真的涵盖了很多方面。在 第1章中,您看到了整个机器学习工作流程的鸟瞰图。 然后,在 第2章中,您学习了快速,高效且具有决定性的探索性分析框架。 第3章是关于数据清理的,这可能是最重要的一步。 接下来,在 第4章中,我们分享了我们最喜欢的特征工程启发式方法。 在 第5章中,我们讨论了正则化和集合,并且您了解了5种利...
2018-07-30 11:03:04 4559
翻译 【机器学习入门系列】第六章 模型训练
欢迎来到我们的7部分数据科学和应用机器学习迷你课程!在前一章中,我们介绍了5种有效的ML算法。他们利用正规化和合奏的强大机制。在本指南中,我们将逐步介绍模型培训流程。既然我们已经完成了困难的部分,实际上适合(也就是训练)我们的模型将是相当简单的。我们将讨论一些关键技术,这些技术已成为该领域广泛接受的最佳实践。同样,这个迷你课程是对数据科学和机器学习的温和介绍,所以我们还不会深入...
2018-07-30 10:57:26 4768
翻译 【机器学习入门系列】第五章 算法选择(重要)
欢迎来到我们的7部分数据科学和应用机器学习迷你课程!在上一章中,您学习了几种不同的启发式方法来进行有效的特征工程。这些包括利用领域知识和分组稀疏类。本指南将解释 机器学习的算法选择。然而,我们不是用选项轰炸你,而是直接跳到最佳实践。我们将在现代算法中引入两种强大的机制:正则化和集成。正如您将看到的,这些机制“修复”了旧方法中的一些致命缺陷,这导致了它们的普及。让我们开始吧!...
2018-07-30 10:53:48 4718
翻译 【机器学习入门系列】第四章 特征工程
欢迎来到我们的7部分数据科学和应用机器学习迷你课程!在上一章中,您学习了一个可靠的清理数据集的框架。我们修复了结构错误,处理了缺失数据和过滤后的观察。在本指南中,我们将了解如何执行 特征工程以帮助我们的算法并提高模型性能。请记住,在所有核心步骤中,数据科学家通常将大部分时间花在功能工程上: 什么是特征工程?特征工程是关于从现有的输入特征创建新的输入特征。通常,您可...
2018-07-30 10:38:23 4550
翻译 【机器学习入门系列】第三章 数据清理
欢迎来到我们的7部分数据科学和应用机器学习迷你课程!在上一章中,您了解了“了解”数据的基本数据可视化。更重要的是,我们解释了要查找的洞察类型。基于这些见解,是时候通过数据清理将我们的数据集变为尖端形状 。数据清理的步骤和技术将因数据集而异。因此,单个指南无法涵盖 您可能遇到的所有内容。但是,本指南提供了可靠的起始框架 ,每次都可以使用。我们介绍了常见的步骤,例如修复结构错误,...
2018-07-30 10:34:34 4668
翻译 【机器学习入门系列】第二章 探索性分析
欢迎来到我们的7部分数据科学和应用机器学习迷你课程!在上一章中,我们看到了整个机器学习工作流程的概述。我们看到数据科学的“80/20”包括5个核心步骤。在本章中,我们将深入探讨这些核心步骤中的第一步: 探索性分析。不应将此步骤与数据可视化或摘要统计混淆。那些只是工具......意味着结束。适当的探索性分析是关于回答问题。它是关于从你的数据集中提取足够的见解,以便在你在杂草中迷路之...
2018-07-30 10:29:36 5050
翻译 【机器学习入门系列】第一章 机器学习初探
欢迎来到我们的7部分数据科学和应用机器学习迷你课程!在这7章中,我们的目标是为您提供应用机器学习的端到端蓝图,同时尽可能保持可操作性和简洁性。有了它,让我们开始鸟瞰机器学习工作流程。首先要做的事情。您可以在接下来的一小时内完成一项非常酷(可选)的挑战,即培训您的第一台机器学习模型! 这是对的,我们已经整理了一个完整的分步教程, 用于培训可以预测葡萄酒质量的模型。随时可以随时查...
2018-07-30 10:18:22 4675
翻译 【机器学习】适用于机器学习初学者的8个小项目
在本指南中,我们将为初学者提供8个有趣的机器学习项目。项目是您当时最好的投资之一。您将享受学习,保持动力并加快进度。你看,没有多少理论可以取代动手实践。教科书和课程可以让你陷入错误的掌握信念,因为材料就在你面前。但是一旦你尝试应用它,你可能会发现它比它看起来更难。项目可帮助您快速提高应用的ML技能,同时让您有机会探索有趣的主题。此外,您可以将项目添加到您的投资组合中,从而更容易找到工作...
2018-07-27 15:29:40 9105
翻译 【机器学习】机器学习数据集大全
下面,您将找到一个由用户组织的数据科学和机器学习免费数据集的策划列表。您将找到精选的数据集和我们最喜欢的聚合器。目录探索性分析的数据集通用机器学习的数据集深度学习数据集自然语言处理的数据集云计算机学习的数据集时间序列分析的数据集推荐系统的数据集特定行业的数据集流式传输的数据集Web Scraping的数据集当前事件的数据集 探索性分析的数...
2018-07-27 15:24:15 7709
翻译 【机器学习】21个机器学习面试问答
如果您希望获得数据科学的工作,您需要通过严格且有竞争力的面试流程。事实上,大多数顶级公司将至少进行3轮面试。在此过程中,您将接受各种技能的测试,包括:您的技术和编程技巧 您能够为开放式问题构建解决方案 您有效应用机器学习的能力 您使用各种方法分析数据的能力 您的沟通技巧,文化适应性等 你掌握了数据科学和机器学习中的关键概念(←这是本文的重点)在这篇文章中,我们将提供机器学习面试...
2018-07-27 15:15:29 2231
翻译 【机器学习】机器学习入门系列(共七章)
这个由7部分组成的迷你课程将简要介绍数据科学和应用机器学习。如果您是一名开发人员,分析师,经理或有抱负的数据科学家,希望了解有关数据科学的更多信息,那么您就是在正确的位置。让我们开始吧! 第1章:鸟瞰图首先,让我们从数据科学的“80/20”开始......一般来说,我们可以将应用的机器学习分解为以下几个块:该数据科学入门将涵盖探索性分析,数据清理,特征工程,算法选择和模...
2018-07-27 15:10:14 4487
翻译 【数据科学】针对数据科学初学者的免费资源
在本指南中,我们将分享65种免费的数据科学资源,我们已经为初学者精心挑选和注释。要成为数据科学家,您将面临巨大的挑战。您需要掌握各种技能,从机器学习到业务分析。但是,奖励是值得的。组织将奖励那些能够将原始数据转化为更明智的决策,更好的产品,更快乐的客户以及最终获得更多利润的炼金术士。此外,您将解决有趣的问题并掌握新的,有影响力的技术。如果这听起来像你喜欢的职业,那么请将此页面加入书签并...
2018-07-25 16:39:24 2681
翻译 【数据科学】数据科学职业生涯中需要避免的9个错误
如果你想开始从事数据科学的工作,你可以通过避免这9个昂贵的初学者错误来节省数天,数周甚至数月的挫败感。如果你不小心,这些错误会吞噬你最宝贵的资源:你的时间,精力和动力。我们将它们分为三类:学习数据科学时出错 申请工作时的错误 求职面试时的错误在学习数据科学的同时第一组错误是“卧底”,很难发现。他们缓慢但肯定地消耗你的时间和精力而不给你警告,并且他们从围绕这个领域的误解中产生。...
2018-07-25 16:32:11 2441
转载 【机器学习】特征工程实践
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次...
2018-07-25 10:22:49 544
转载 【大数据】大数据知识体系大全
1 浅谈数据科学数据科学(Data Science)这一概念自大数据崛起也随之成为数据领域的讨论热点,从去年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么关系?大数据在数据科学中起到怎样的作用?本文主要是想起到科普作用,使即将或正在从事数据工作的朋友对数据科学工作有一个全概貌了解,也使各有想法进入大数据领域的朋友在真正从事大数据工...
2018-07-25 10:03:42 4228
转载 【大数据】数据仓库维度建模入门
对数据分析越来越深入,越来越发现数据标准化的重要性,再高明的数据分析技术,没有规范统一的数据仓库,也是“巧妇难为无米之炊”。遂从头再对数据仓库技术进行一边梳理。 1. 维度建模理论概要1.1 维度设计的主要流程1.1.1 选择业务过程业务过程是组织完成的操作性活动,例如:获得订单、处理保险索赔、学生课程注册或每个月每个账单的快照等。业务过程事件建立或获取性能度量,并转换成事实表...
2018-07-25 09:56:18 1073
翻译 【机器学习】特征工程的最佳实践
特征工程是为机器学习创建新输入功能的过程,是改进预测模型的最有效方法之一。提出功能很困难,耗时,需要专业知识。“应用机器学习”基本上是特征工程。~Andrew Ng通过功能工程,您可以隔离关键信息,突出显示模式并引入领域专业知识。不出所料,它很容易被卡住,因为功能工程是如此开放。在本指南中,我们将讨论20个最佳实践和启发式方法,它们将帮助您浏览特征工程。 什么是特征工程...
2018-07-25 09:53:27 4630
原创 【机器学习】非凸优化
非凸优化http://arxiv.org/pdf/1712.07897.pdf将学习问题表达为非凸优化问题的便利方式使算法设计者获得大量的建模能力流行的解决方案是将非凸问题近似为凸优化,使用传统方法解决近似(凸)优化问题。但是该方法可能造成损失,且对于大规模优化来说难度较高。解决非凸优化的直接方法在多个领域中取得了巨大成功,现在仍是从业者常用的方法,因为
2018-07-13 23:38:38 11419
原创 一年多的博客生涯总结
今年是我的博客的一周年,回想当初,为什么要写博客? 我到现在的回答依然是“弥补生物痛点,用进废退”,当知识不用或者少用的时候会忘记或者记忆残缺,但如果有着当初记录的书面记忆,能使其快速的回忆起曾经的知识。正是因为这个原因是我开始了博客生涯,后来博客不单单是记忆知识点,还摘录先进和热门知识还有一些基础知识。我目前博客现状? 截止至2018年7月13日: 文章...
2018-07-13 23:31:19 199
机器学习知识手册
2018-10-15
《精益数据分析》埃里克·莱斯
2018-09-25
pycharm2017汉化包
2017-09-18
全面的各类RAID详解
2017-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人