![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学
Adam婷
笔者在人工智能/机器学习领域中默默探索,时而迷惘,时而欣喜。
展开
-
Introduction to Ensembling/Stacking
IntroductionThis notebook is a very basic and simple introductory primer to the method of ensembling (combining) base learning models, in particular the variant of ensembling known as Stacking. In a ...原创 2019-04-15 22:58:55 · 445 阅读 · 0 评论 -
Extracting and Analyzing 1000 Basketball Games using Pandas and Chartify
IntroductionI love descriptive statistics. Visualizing data and analyzing trends is one of the most exciting aspects of any data science project. But what if we don’t have proper data? Or the data we...原创 2019-05-10 21:14:19 · 479 阅读 · 0 评论 -
Learning to play snake at 1 million FPS Playing snake with advantage actor-critic
In this blog post I’ll guide you through my most recent project, which combines two things I find fascinating — computer games and machine learning. For quite a while now I’ve wanted to get to grips w...翻译 2019-05-21 23:29:42 · 303 阅读 · 0 评论 -
AdamTechLouis's talk: The Data Fabric for Machine Learning.
IntroductionIf you search for machine learning online you’ll find around 2,050,000,000 results. Yeah for real. It’s not easy to find that description or definition that fits every use or case, but t...原创 2019-06-03 09:37:18 · 377 阅读 · 0 评论 -
AdamTechLouis's talk:Building a Knowledge-Graph.
IntroductionI’ve been talking about the data fabric in general, and giving some concepts of Machine Learning and Deep Learning in the data fabric. And also gave my definition of the data fabric:The...原创 2019-06-03 10:44:31 · 873 阅读 · 0 评论 -
现代博弈论与多智能体强化学习系统
如今,大多数人工智能(AI)系统都是基于处理任务的单个代理,或者在对抗模型的情况下,是一些相互竞争以改善系统整体行为的代理。然而,现实世界中的许多认知问题是大群人建立的知识的结果。以自动驾驶汽车场景为例,任何座席的决策都是场景中许多其他座席行为的结果。金融市场或经济中的许多情景也是大型实体之间协调行动的结果。我们如何模仿人工智能(AI)代理中的行为?多智能体强化学习(MARL)是深度学习学科,...原创 2019-06-22 17:50:30 · 4754 阅读 · 1 评论 -
Building a Reporting Dashboard using Dash and Plotly ----Adam Studio
How to Build a Reporting Dashboard using Dash and PlotlyIn this blog post, I will provide a step-by-step tutorial on how to build a reporting dashboard using Dash, a Python framework for building ana...原创 2019-07-11 00:36:58 · 1746 阅读 · 0 评论 -
XGBoost: A Scalable Tree Boosting System(XGBoost:一个可扩展的树提升系统)
XGBoost: A Scalable Tree Boosting SystemABSTRACTTree boosting is a highly e ective and widely used machine learning method. In this paper, we describe a scalable end-to-end tree boosting system call...原创 2019-07-15 20:42:38 · 2355 阅读 · 0 评论 -
五大数据可视化库教程 ---Adam Studio
Top 5 Data Visualization Libraries TutorialNotebook ContentIntroductionLoading PackagesversionSetupData CollectionData Visualization LibrariesMatplotlibScatterplotsLine PlotsBar ChartsHi...原创 2019-07-15 23:43:05 · 1784 阅读 · 0 评论 -
XGBoost: Scalable GPU Accelerated Learning (XGBoost:可扩展的GPU加速学习)
XGBoost: Scalable GPU Accelerated LearningAbstractWe describe the multi-GPU gradient boosting algorithm implemented in the XGBoost library1. Our algorithm allows fast, scalable training on multi-GPU...原创 2019-07-16 10:11:00 · 728 阅读 · 0 评论 -
通过分析房屋价格理解机器学习流程 --Adam Studio
Machine Learning Workflow for House Prices1- IntroductionThis is a A Comprehensive ML Workflow for House Prices data set, it is clear that everyone in this community is familiar with house prices d...原创 2019-07-16 22:58:29 · 3032 阅读 · 0 评论 -
Tutorial on Ensemble Learning (Don't Overfit) ---- Adam Studio
Tutorial on Ensemble Learning (Don’t Overfit)Notebook ContentIntroductionImport packagesVersionSetupData CollectionExploratory Data Analysis(EDA)What’s Ensemble Learning?Why Ensemble Le...原创 2019-07-16 23:52:24 · 463 阅读 · 0 评论 -
最容易理解的梯度增强教程 ---- Adam Studio
Gradient BoostingToday we are going to have a look at one of the most popular and practical machine learning algorithms: gradient boosting.OutlineWe recommend going over this article in the order...原创 2019-07-17 19:58:37 · 2562 阅读 · 0 评论 -
面向机器学习初学者的50大问答题 ---Adam Studio
50 machine learning questions & answers for Beginnersimport matplotlib.animation as animationfrom matplotlib.figure import Figureimport plotly.figure_factory as ffimport matplotlib.pylab as p...原创 2019-07-17 20:39:19 · 235 阅读 · 0 评论 -
排名前三的自然语言处理库教程 ---- Adam Studio
前三名NLP库教程Notebook ContentIntroductionImportVersionSetupData setGendered Pronoun Analysisa. Problem Featureb. VariablesNLTKTokenizing sentencesNLTK and arraysNLTK stop wordsNLTK – s...原创 2019-07-17 23:30:19 · 1032 阅读 · 0 评论 -
预测与解释 为什么数据科学需要更多的“半贝叶斯”
预测与解释为什么数据科学需要更多的“半贝叶斯” **一种有向无环图,描绘了胎儿酒精谱系障碍的原因途径**认知科学中的文化战争我最近偶然发现了几年前关于自然语言处理的真正多汁的辩论,这场辩论发生在几年前,现场语言守护者诺姆乔姆斯基和现任语言学之父诺姆乔姆斯基,以及新任警卫Peter Norvig,导演谷歌的研究。乔姆斯基在评论该领域的发展方向时说:“假设有人说他想要消灭物理系并以正确...原创 2019-07-26 16:14:59 · 394 阅读 · 0 评论 -
用于分类的特征选择技术和用于其应用的Python技巧
A tutorial on how to use the most common feature selection techniques for classification problemsSelecting which features to use is a crucial step in any machine learning project and a recurrent tas...原创 2019-08-20 23:56:27 · 2275 阅读 · 0 评论 -
用独立分量分析分离混合信号
The world around is a dynamic mixture of signals from various sources. Just like the colors in the above picture blend into one another, giving rise to new shades and tones, everything we perceive is ...原创 2019-04-30 23:43:31 · 3476 阅读 · 1 评论 -
Make your Data Talk! From 0 to Hero in visualization using matplotlib and seaborn
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...转载 2019-04-30 22:10:40 · 362 阅读 · 0 评论 -
使用新闻预测股票走势-----Kaggle经典ph.D操作分析
General informationTwo Sigma Financial News Competition is a unique competitions: not only it is a Kernel-only competition, but we aren’t supposed to download data and during stage two our solutions ...原创 2019-05-05 23:26:28 · 3795 阅读 · 8 评论 -
使用机器学习和深度学习技术(使用Python代码)预测股票价格
Introduction预测股市将如何表现是最困难的事情之一。 预测中涉及的因素很多 - 物理因素与生理因素,理性行为和非理性行为等有关。所有这些因素共同导致股价波动,很难以高精度预测。我们可以将机器学习作为该领域的游戏规则改变者吗? 利用有关组织的最新公告,季度收入结果等功能,机器学习技术有可能发掘出我们以前没有看到的模式和见解,并且可以用来做出准确无误的预测。在本文中,我们将使用有关上...原创 2019-04-20 18:09:06 · 8293 阅读 · 0 评论 -
了解XGBoost背后的数学------端到端指南
Introduction自从2014年推出以来,XGBoost一直被誉为机器学习黑客马拉松和竞赛的圣杯。 从预测广告点击率到分类高能物理事件,XGBoost已经证明了它在性能和速度方面的优势。在任何ML黑客马拉松中,我总是将XGBoost作为我的首选算法。 它始终如一的精确度和节省的时间证明了它的实用性。 但它是如何实际工作的? 什么样的数学能力XGBoost? 我们很快就会找到这些问题的答案...原创 2019-04-21 00:09:45 · 374 阅读 · 0 评论 -
12个降维技术的终极指南(使用Python代码)
Introduction您曾经使用过具有超过一千个功能的数据集吗? 超过50,000个功能怎么样? 我有,让我告诉你这是一项非常具有挑战性的任务,特别是如果你不知道从哪里开始! 拥有大量变量既是恩惠,也是诅咒。 我们有大量的数据用于分析,这很棒,但由于尺寸的原因,它具有挑战性。在微观层面分析每个变量是不可行的。 我们可能需要几天或几个月才能进行任何有意义的分析,我们将为您的业务损失大量的时间和...原创 2019-04-21 01:04:02 · 3510 阅读 · 1 评论 -
使用Python和R中的Auto ARIMA构建高性能时间序列模型
Introduction想象一下 - 您的任务是预测下一代iPhone的价格并提供历史数据。 这包括季度销售,月度支出以及Apple资产负债表附带的大量内容等功能。 作为一名数据科学家,您将哪种问题归类为? 当然是时间序列建模。从预测产品的销售额到估算家庭的用电量,时间序列预测是任何数据科学家都应该知道的核心技能之一,如果不是掌握的话。 您可以使用多种不同的技术,我们将在本文中介绍一种最有效的...原创 2019-04-21 10:02:03 · 4702 阅读 · 2 评论 -
全面的初学者指南,用于创建时间序列预测(使用Python中的代码)
Introduction时间序列(从现在开始称为TS)被认为是数据科学领域中鲜为人知的技能之一(即使我几天前对此也没什么了解)。 我为自己设定了解决时间序列问题的基本步骤,并在此与大家分享。 这些肯定会帮助您在未来的任何项目中获得一个不错的模型!在阅读本文之前,我强烈建议阅读R中的时间序列建模完整教程 和 参加免费时间序列预测课程。 它侧重于基本概念,我将专注于使用这些概念来解决端到端问题以及...原创 2019-04-21 10:56:13 · 630 阅读 · 0 评论 -
集成学习综合指南(使用Python代码)
Introduction当您想购买新车时,您会走到第一家汽车店并根据经销商的建议购买吗? 这不太可能。您可能会浏览一些门户网站,人们发布评论并比较不同的车型,检查其功能和价格。 你也可能会问你的朋友和同事他们的意见。 简而言之,你不会直接得出结论,而是会考虑其他人的意见做出决定。机器学习中的集合模型基于类似的想法。 他们将多个模型的决策结合起来,以提高整体绩效。 这可以通过各种方式实现,您...原创 2019-04-21 12:55:26 · 1203 阅读 · 0 评论 -
在R语言中构建动画图以分析我的健身数据
Introduction所有这些健身追踪器,乐队,甚至我们的智能手机 - 它们都通过某些应用程序存储我们的健康数据,例如iOS上的Healthkit,Android上的Google健身等等。我们距离访问我们的健康数据还有几点距离 - 距离覆盖,步骤 - 燃烧,燃烧的卡路里,心率等现在,我想分析一下健身水平的某些趋势。 我的应用程序并没有提供这种深度或分析水平。 所以我转向了我喜欢的一件事–R...原创 2019-04-27 16:41:55 · 794 阅读 · 0 评论 -
8个你不使用的数据科学R包(但绝对应该使用)
Introduction我是R的忠实粉丝 - 这不是什么秘密。 自从我在大学学习统计数据以来,我一直依赖它。 实际上,R仍然是机器学习项目的首选语言。R有三件事主要吸引我:易于理解和使用的语法令人难以置信的RStudio工具R套餐!R提供了大量用于执行机器学习任务的软件包,包括用于数据操作的’dplyr’,用于数据可视化的’ggplot2’,用于构建ML模型的’caret’等。...原创 2019-04-27 17:16:18 · 1927 阅读 · 1 评论 -
从零开始构建随机森林并了解真实数据产品
Introduction作为数据科学家和机器学习从业者,我们遇到并学习了大量的算法。 你有没有想过每个算法的真正用处在哪里? 大多数机器学习技术的主要目的是扩展黑客马拉松的排行榜吗?不必要。 检查和了解机器学习在现实世界的行业场景中的使用位置和方式非常重要。 这就是我们大多数人正在工作的地方(或最终会工作)。 这就是我打算在我们流行系列的第3部分中展示的内容,其中包括fast.ai机器学习课程...原创 2019-04-27 22:52:33 · 707 阅读 · 0 评论 -
使用tensorflow快速训练增长树模型
How to train Boosted Trees models in TensorFlow本教程是使用带有tf.estimator API的决策树训练Gradient Boosting模型的端到端演练。 Boosted Trees模型是回归和分类中最受欢迎和最有效的机器学习方法之一。 这是一种集合技术,它结合了几种(认为10s,100s甚至1000s)树模型的预测。Boosted Tree...原创 2019-04-23 23:46:25 · 742 阅读 · 0 评论 -
使用NLP预测电影类型 - 多标签分类
IntroductionI was intrigued going through this amazing article on building a multi-label image classification model last week. The data scientist in me started exploring possibilities of transforming...原创 2019-04-24 00:29:47 · 5309 阅读 · 2 评论 -
时间序列分类实践介绍(使用Python代码)
IntroductionClassifying time series data? Is that really possible? What could potentially be the use of doing that? These are just some of the questions you must have had when you read the title of t...原创 2019-04-19 20:05:43 · 2184 阅读 · 0 评论 -
2019年最好的5个数据科学GitHub项目和Reddit讨论
Introduction数据科学是一个不断发展的领域。 作为数据科学家,我们需要了解社区中出现的最新算法和框架的脉搏。我发现GitHub在这方面是一个很好的知识来源。 该平台帮助我了解趋势数据科学主题。 我还可以从领先的数据科学家和公司那里查找和下载代码 - 数据科学家还能要求什么? 所以,如果你是:数据科学爱好者机器学习从业者数据科学经理深度学习专家或者上面的任何组合,这篇文章...原创 2019-05-04 22:40:13 · 1011 阅读 · 0 评论 -
数据科学统计:中心极限定理简介(用R语言实现)
Introduction什么是统计数据中最重要和最核心的概念之一,它使我们能够进行预测建模,但它常常让有抱负的数据科学家感到困惑? 是的,我在谈论中心极限定理。这是一个强大的统计概念,每个数据科学家都必须知道。 现在,为什么呢?好吧,中心极限定理(CLT)是假设检验的核心 - 这是数据科学生命周期的关键组成部分。 这是正确的,让我们探索我们获得的数据的巨大可能性的想法来自CLT。 这实际上是...原创 2019-05-04 23:00:14 · 4745 阅读 · 1 评论 -
回归的K-最近邻算法实用介绍(使用Python代码)
Introduction在我遇到的所有机器学习算法中,KNN很容易就是最简单的。 尽管它很简单,但事实证明它在某些任务中非常有效(正如您将在本文中看到的那样)。甚至更好? 它可以用于分类和回归问题! 然而,它更常用于分类问题。 我很少看到KNN在任何回归任务上实现。 我的目的是说明并强调当目标变量本质上是连续的时,KNN如何同等有效。在本文中,我们将首先了解KNN算法背后的直觉,研究计算点...原创 2019-04-25 08:18:48 · 1206 阅读 · 0 评论 -
从机器学习Hikeathon获得解决方案和方法:特征工程首选
Introduction我们发现自己在机器学习中使用表格数据的时间占90-95%。 在机器学习黑客马拉松中,这个数字甚至更高。 你还记得上一次你在做一个你想过的挑战吗 - “我之前没见过这种数据!”使用图表数据是一项独特的挑战。 这就是为什么我们很高兴上个月与Hike合作主持ML Hikeathon。 我们的社区也喜欢它 - 来自世界各地的5300多名数据科学家参加了为期9天的活动!通过参与...原创 2019-05-05 15:19:05 · 188 阅读 · 0 评论 -
时间序列分析的计量经济学方法 - Python中的序列性ARIMA
Autocorrelation, time series decomposition, data transformation, Sarimax model, performance metrics, analysis frameworkAt this post, we will talk about the analysis of time series data with Trend and...原创 2019-08-21 00:18:18 · 12123 阅读 · 1 评论