python
文章平均质量分 90
数据工程与机器学习
这个作者很懒,什么都没留下…
展开
-
如何用Python在3分钟内创建一个金融网页应用
数据驱动项目的重要组成部分是其易于解释和可视化的能力,即使事先对数据一无所知的其他人也是如此。Streamlit是一个非常易于使用和直观的工具,用于在Python中构建高度交互、数据驱动的网页应用(Web App)。使用此工具,您可以只关注数据层面,而不必担心使用Flask或Django进行繁琐的部署。该过程非常简单,阅读完本文后,您也能在几分钟内部署Web应用,并且只需几行代码!配置项目要使用Streamlit构建网页应用,首先使用PyPi(Python包管理器)下载和安装它。在终端中使用以下命令原创 2021-06-02 10:13:26 · 483 阅读 · 1 评论 -
如何用Python从IEX下载日内K线数据
您是否正在寻找一种免费获取股票日内K线的方法?使用这些数据,可以在本地回测交易策略和训练机器学习模型。本文将向您展示如何从IEX交易所下载免费的日内数据。IEX是美国的证券交易所,交易股票的数量超过8000个。为什么选择IEX?免费。 IEX是唯一能够免费定期下载大量日内OHCL(高开低收)数据的平台。出色的API。IEX API的文档齐全,易于理解,最重要的是它完美支持异步请求。在Alpaca上进行模拟交易。个人认为Alpaca是算法交易的最佳API,允许在IEX进行所有股票的模拟交易。因此,原创 2021-05-27 16:06:23 · 559 阅读 · 0 评论 -
如何用Python Faust构建流数据管道(下篇)
本文是如何用Python和Faust创建流处理管道系列文章的第二部分。如果您还不熟悉Faust的一般概念,建议先阅读系列文章的第一部分。今天,我们将建立一个简单的流处理管道,包含多个任务。这是Kafka streams的常见用例,也是探索Faust的一种有趣方式。好的,现在让我们动起来!项目布局在开始新项目和学习新技术时,最令人沮丧的事情之一就是设置项目结构。在单个Python模块中启动Faust项目是完全可行的,但是如果您打算创建多个流处理任务,则最好从设置项目结构开始。Faust为大中型项目提原创 2021-05-10 09:39:59 · 743 阅读 · 0 评论 -
如何用Python Faust构建流数据管道(上篇)
Faust是一个将Kafka Streams的概念移植到Python的三方库。如果您不熟悉Kafka,那么在阅读该系列之前,最好先阅读Kafka文档和Kafka Streams。我们先介绍Faust的基础知识,包括核心概念和通用API。Kafka Streams在Apache Kafka之上为客户端库提供了一些抽象。因为Faust在很大程度上重用了完全相同的概念,所以学习Faust的过程就是学习Kafka Streams的过程。好的,让我们开始吧!应用(Application)应用程序(Appli原创 2021-05-10 09:39:03 · 539 阅读 · 0 评论 -
Apache Kafka的3个核心Python客户端库
数据赋予了世界力量。我们每秒获取大量信息,我们对其进行清理,分析并创建更有价值的输出,无论是日志文件,用户活动,聊天消息还是其他内容。我们提供的速度越快,便会为客户带来更多的价值。我们正处于一个快节奏且瞬息万变的环境时代。Apache Kafka是一个分布式流平台,可以实时发布,订阅,存储和处理消息。其拉取式的体系结构减轻了繁重负载对服务的压力,并使其易于扩展。它以低延迟将大量数据从源移动到目的地。Kafka是基于JVM的平台,因此客户端的主流编程语言是Java。但是,随着社区的蓬勃发展,高质量的开源P原创 2021-05-05 08:50:21 · 803 阅读 · 4 评论 -
机器学习:如何快速寻找性能最佳的模型
设想一下您要测试给定数据集是否具有足够的特征来训练机器学习算法,或者在给定数据集上测试不同算法的性能,这两种情况在数据科学领域非常普遍。通常情况下,要测试特征是否有效,可以训练没有正则化的模型,并验证损失函数是否接近零。使用哪种算法?该问题的答案类似于探索性数据分析(EDA)的过程。进行探索性数据分析可以深入了解数据集。同样,有几种方法可以找到最适合该数据集的最佳算法,但这通常需要在循环中迭代多个模型,这可能很耗时。要克服此限制,可以使用lazypredict(Python库)作为选择最佳性能算法原创 2021-04-23 10:36:15 · 992 阅读 · 1 评论 -
PyCaret和Streamlit:快速创建和部署数据科学应用
建立和部署机器学习模型从未如此简单。现在,有许多框架和库帮助我们仅用几行代码来构建机器学习模型,PyCaret是最好的工具之一,而最近非常流行的Streamlit可用于快速创建和部署Web应用程序。在本文中,我们将使用这两个库来创建一个数据科学Web应用程序。我们将使用PyCaret构建葡萄酒质量分类器。接下来,使用Streamlit创建和部署葡萄酒分类器。您将惊讶于构建分类器并部署Web应用是如此简单和快捷。让我们开始吧!本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。加载和预处理数据我们原创 2020-12-28 09:42:02 · 1229 阅读 · 0 评论 -
量化策略:基于波动率范围指标的反向交易策略
金融时间序列非常复杂,我们需要许多变量来理解和解释它们。只有这样,我们才有机会预测价格并从中获利。在本文中,我将介绍一个新的技术指标,称为波动范围指标(VRI),该指标使用波动率,动量和范围的概念来生成高质量的交易信号。波动范围指标(VRI)VRI是一个相对复杂的指标,由三个要素组成:波动率由历史标准偏差衡量。按收盘价之差衡量的动量。最大-最小范围技术。在将每个部分组合在一起之前,我们将单独讨论它们,将“波动率范围指标”(VRI)全部呈现出来,然后创建交易策略并回溯检验。本文来自《数据黑客原创 2020-12-27 09:32:56 · 2485 阅读 · 0 评论 -
Python编程:用装饰器并行化函数
如果您可以通过在函数中添加装饰器(decorator)来加快程序运行速度,那会不会很酷?如果您不必担心并行运行列表中的数据,这会很酷吗?今天,我们将要编写一个python装饰器,该装饰器会自动添加函数的并行功能,这样您就可以将更多精力放在代码的逻辑上,而不必担心多线程问题。在开始之前,先了解python多线程的一些基础知识。用装饰器并行化函数的起点是针对IO密集型任务,例如API调用,DB调用,打开文件,等待数据流,从网站下载文件等等。通常的做法是使线程数等于系统中可用的CPU数。这只是一个标准,原创 2020-12-26 08:13:34 · 497 阅读 · 2 评论 -
数据科学:7个步骤解决任何数据科学问题
1. 入门在外人看来,数据科学似乎是一门庞大而模糊的学科。当今的数据科学专家并没有上大学以获得数据科学学位(尽管现在许多大学都提供这些课程)。第一代专业数据科学家来自数学,统计学,计算机科学和物理学等学科。数据科学的“科学”部分是提出问题,生成假设,检查证据并制定解释证据的模型。这些是任何人都可以学习的技能,并且比以往任何时候都有更多的资源来学习。最好的资源之一是Kaggle 。他们的数据科学竞赛为所有人提供了一个挑战真实项目的平台。围绕这些挑战而形成的社区也是向他人学习的好地方。当我从物理学家原创 2020-12-24 11:00:01 · 1234 阅读 · 0 评论 -
量化策略:如何用均线生成反转信号
移动平均线(Moving Average)是最简单的技术指标之一,它能够快速且有效地帮助我们进行交易和分析。在本文中,我们将从不同的角度讨论均线交叉的概念。我们通常将短期均线和长期均线交叉作为交易信号,如果我们想从均线交叉中提取更多信息,可以创建一个新指标,包含多个信号的生成过程。该指标非常容易计算和理解,我们将在下面详细介绍。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。关于均线交叉移动平均线有助于确认并把握趋势。它们是最著名的技术指标,使用简单且可靠。我们可以用均线来确定支撑和阻力位,原创 2020-12-20 09:18:52 · 1614 阅读 · 1 评论 -
如何用Python装饰器函数实现重试策略
实现重试装饰器可以防止意外的异常。人们通常将Python描述为“胶水语言”。在我看来,“胶水”意味着一种语言能够连接系统,确保数据以正确的格式从A点达到B点。我用Python构建了无数的ETL脚本(Extract, Transform, Load)。所有这些脚本基本上都按照相同的原理运行,从某处提取数据,转换数据,然后运行最终操作。最后的操作通常意味着将数据上传到某个地方。现代科技公司的基础架构中越来越多的一部分正在迁移到云中,这意味着您可能需要从某个地方提取数据或在非本地计算机上写入数据。当处理的原创 2020-12-18 07:31:27 · 515 阅读 · 0 评论 -
量化策略:如何用分形指标检测市场顶部和底部
有效的市场假说无法解决金融资产中的许多异常现象和反复出现的可利用模式。这就是为什么与被动投资相比,主动投资组合管理仍是主导方的原因。金融市场不是完全随机的,而是类似随机的,即它们显示出低的信噪比。换句话说,很难预测市场,甚至很难持续获利。但是,“很难”一词并不意味着不可能。在本文中,我们将学习混沌理论及其在金融市场中的定义。然后,我们将开发一个指标,该指标使用的公式接近于“重标范围”计算,该公式通常与分形数学(fractal mathematics)有关。本文来自《数据黑客》,登录官网可阅读更多精彩资讯原创 2020-12-18 07:29:19 · 1986 阅读 · 0 评论 -
3个独一无二的机器学习Python库
Python有大量广泛应用于数据科学的软件包,其中部分工具旨在实现机器学习算法。我将介绍一些新的软件包,您以前可能从未听说过这些工具,或者用得很少。这些库使机器学习算法的选择变得更快和更容易。如果您想了解更多重要的机器学习Python库,请继续阅读,它们并不是scikit-learn,TensorFlow。我们将讨论PyCaret,pickle和Imbalanced-learn。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。PyCaretPyCaret能够用更少的代码来实现机器学习算法,选择原创 2020-12-13 09:40:39 · 275 阅读 · 1 评论 -
不想花时间阅读长篇文章?用Python NLTK获取文章摘要
介绍今天的互联网上有数以百万计的网页和网站。遍历大量内容对于提取有关某个主题的信息变得非常困难。Google会过滤搜索结果并为您提供排名前十的搜索结果,但是通常无法找到所需的正确内容。文章中有大量冗余和重叠的数据,这导致大量时间的浪费。解决此问题的更好方法是汇总大量可用的文本数据,以较短的版本显示。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。文本摘要文本摘要是一种NLP(自然语言处理)技术,可从大量数据中提取文本,目标是创建长文本的精简版本。文本摘要的好处:减少阅读时间帮助更好的原创 2020-12-09 10:34:04 · 653 阅读 · 0 评论 -
用Python构建仪表盘应用的最佳工具
为正确的项目选择正确的工具数据分析的重要部分是沟通,我们需要以一种易于理解的方式来传播信息,以交流,突出显示和可视化关键区域。仪表板(Dashboard)使您的数据可视化更上一层楼。他们连接了不同的可视化组件,并制作了一个完整而集成的数据可视化故事。Web应用程序仪表板还允许用户与数据进行交互,从而使他们可以查看和调整他们想要的内容。在Python中创建仪表板从未如此简单。我们有几个仪表板工具可供使用,以制作连贯的数据可视化故事,而无需使用Tableau或Power BI之类的传统仪表板工具。在本文原创 2020-12-05 10:37:31 · 1061 阅读 · 0 评论 -
用Python Flask, Plotly和AdminLTE创建仪表盘
当我第一次学习Flask来创建功能性仪表板(Dashboard)时,很难找到真正符合我需要的教程或文档。它们要么太简单了,没有足够的参考价值,要么太复杂,包含了很多我不需要的功能。因此,为了理解本文,我希望您已经掌握了Flask、HTML&CSS、Bootstrap的基本知识,并且能够方便地使用python绘图库。也许有人会问我为什么不选择更熟悉的python库,比如Matplotlib和Seaborn进行绘图。答案是,如果我想在web仪表板上使用这些库,使用它们并不方便。据我所知,使用这些库,我原创 2020-12-02 07:47:50 · 1308 阅读 · 1 评论 -
Python在真实世界的16种应用场景
自从Guido Van Rossum于1991年创建Python以来,Python获得了长足的发展。简而言之,它是一种解释性,动态且高级的编程语言 ,可构建大量应用程序。得益于其较低的学习曲线和易于阅读的语法 ,它也很容易学习。Python是一种功能强大的编程语言,从Web应用程序到视频游戏,数据科学,机器学习,实时应用程序到嵌入式应用程序等等,无所不包。在本文中,我们将深入探讨真实世界中用Python构建的应用程序。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。1. 网站开发我们都熟悉网原创 2020-11-27 07:59:10 · 3713 阅读 · 0 评论 -
学习Python的11个顶级Github存储库
如果您是程序员,肯定已经了解平台GitHub。对于刚起步的人来说,GitHub不仅仅是一个托管代码的地方。在这里, 您可以与其他开发人员合作,并使用一系列专用工具来在线管理代码存储库。对于想学习编程语言的人来说,GitHub是一个不错的起点。本文将介绍学习Python的GitHub存储库。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。1. The AlgorithmsStars: 91.8kForked by :27.1kGitHub: https://github.com/TheA原创 2020-11-23 08:34:11 · 476 阅读 · 0 评论 -
Github上冉冉升起的10大Python项目
GitHub是在线代码仓库,Python作为一种令人惊叹的通用编程语言,已经被成千上万的开发人员用来构建各种有趣和有用的项目。在本文中,我们将介绍一些用Python构建的GitHub上最好的项目。1. ManimStars:26.2kForked by:3.4k开发者: Grant SandersonGitHub链接:https://github.com/3b1b/manimManim是数学动画引擎。该项目的目的是使人们更轻松地将有趣且直观的动画与数学教材中的图形相集成,从而摆脱学习数学的刻板印原创 2020-11-21 08:30:25 · 582 阅读 · 0 评论 -
这四个VSCode插件可以大幅提升Python开发效率
作为一个数据科学家,拥有良好的编码惯例非常重要,这样可以让同事更容易地阅读和理解你的代码,避免混淆。为了让代码易于理解,应该做到以下几点:类型提示代码文档仅保留有用的变量,函数和包突出显示代码中需要改进的部分避免琐碎的错误VSCode是我最喜欢的IDE,在这篇文章中,我将介绍4个插件,它们能帮助我们实现以上提出的几点原则,提升代码质量。Python Type Hint类型提示明确指出变量的数据类型,当调用函数或类时,“提示”程序员应该提供什么类型的参数。例如下面的函数,明确指出参数是原创 2020-10-20 09:42:26 · 2394 阅读 · 0 评论 -
你现在应该学习使用FastAPI
Python一直是开发轻量级web应用程序的热门选择,这要归功于Flask、Django、Falcon等许多优秀的框架。由于Python是机器学习的头号语言,打包模型并将其作为服务公开尤其方便。多年来,Flask一直是这项工作的头号工具,但如果你没有听说过,现在有一个新的挑战者。FastAPI是Python的一个相对较新的web框架,它从它的前辈那里汲取灵感,完善它们并修复其许多缺陷。建立在Starlette之上,它带来了一大堆令人敬畏的功能。简单但精彩的UI所有的web框架都需要在功能和给开发者自由原创 2020-10-16 09:45:11 · 1070 阅读 · 0 评论 -
处理超大型数据的17个策略
原文出处:Medium作者:Jeff Hale原文标题:17 Strategies for Dealing with Data, Big Data, and Even Bigger Data处理大数据很棘手。没有人喜欢内存不足的错误,没有人喜欢等待代码长时间运行,没有人喜欢离开Python。Python是数据科学领域最流行的语言,Numpy和Pandas是进行数值计算和数据分析的主要工具。不幸的是,如果你在本地工作,pandas可以处理的数据量受计算机内存的限制。如果你在云端工作,更多的内存会.原创 2020-10-15 09:48:09 · 753 阅读 · 0 评论 -
VSCode是否会成为最好的Python IDE?
原文出处:Medium作者:Matthew MacDonald原文标题:Has VS Code Become the Best IDE for Python?Visual studio code是一个模块化的代码编辑器,因此扩展是必需的。您可以使用它们来获取基本的功能,如语言编译器,以及有用的工具,如代码格式化程序、linter和profiler。仔细看,你甚至会发现表情符号支持。VS code市场大约有20000个扩展。但多年来,一直有一个不受挑战的扩展主导着排名。最流行的VS代码扩展是Pyt.翻译 2020-10-15 09:44:39 · 635 阅读 · 0 评论 -
使用click创建完美的Python命令行程序
Python程序员的主要工作是写命令行程序,即直接在终端运行的脚本。随着项目规模增长,我们希望创建有效的命令行接口,通过提供不同的参数,解决不同的问题,而不是每次都修改源代码。Click库是一个非常高效的命令行工具,能够帮助我们快速创建完美的命令行接口,小编认为这是每个Python程序员都应该掌握的工具。原文出处:Medium作者:Yannick原文标题:perfect-command-line-interfaces-python作为Python开发人员,我们经常编写命令行程序。例如,在.原创 2020-10-13 09:56:53 · 547 阅读 · 0 评论 -
如何用Python下载并分析期货持仓数据
期货持仓报告期货持仓报告,简称COT(Commitment of Traders)报告,记录机构投资者包括商业公司和对冲基金的期货持仓数据。由美国期货交易委员会(CFTC)公布,公布时间是每周五下午2点30分(美东时间)。我们关注的是传统格式(Legacy Format)的COT报告,汇总了期货和期权的持仓数据。传统格式的COT报告包含以下数据:商业持仓(Commercial): 产品制造商/销售商的期货持仓,划分为多头和空头,用期货来对冲价格波动的风险。非商业持仓(Noncommercial)原创 2020-10-12 10:32:36 · 2526 阅读 · 0 评论 -
Python3.9来了,有哪些新变化?
Python 3.9.0 最终版本于2020年10月5号发布。像多数Python爱好者一样,我非常兴奋地探索着最新的功能,本文将为大家展示10个有趣的新特征。本文来源于Medium,翻译校对:蜂鸟数据,原文作者:Farhad Malik,原文标题:10 Awesome Python 3.9 Features1. 字典更新和合并字典添加两个新的运算符,’|‘和’|=’。'|‘运算符用于合并字典,’|='运算符用于更新。字典合并:字典更新:2. 基于PEG的高性能解析器Python原创 2020-10-10 10:19:31 · 994 阅读 · 0 评论 -
Jupyterlab + Ipywidgets,打造交互式分析平台
使用JupyterLab(Jupyter Notebook)分析数据时,一遍又一遍地重新运行同一单元格(每次稍微修改参数)的代码是非常低效的。尽管如此我还是会这么做,例如为函数选择不同的值,为分析选择不同的日期范围,甚至调整图表的主题。这不仅效率低下,而且令人沮丧,破坏了探索性数据分析的流程。解决问题的理想方案是使用交互式控件来更改输入,而无需重新运行代码。幸运的是已经有人创造了解决问题的工具。在本文中,我们将学习如何使用Ipywidgets,使用短短几行代码来构建交互式控件。这个库能够将Jupyter原创 2020-10-09 10:17:25 · 2235 阅读 · 1 评论 -
Python机器学习实战:维数约简的6种常用方法
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。为什么要约简维数?当数据集包含大量特征,有的特征包含大量预测信息,有的仅包含少量信息或纯粹是噪音,很多特征之间也可能高度相关。维数约简的目的在于剔除噪音,只保留有意义的特征,这不仅使数据集更容易管理和理解,预测模型的准确性也会相应提高。常用方法有哪些?相关系数矩阵主成分分析随机PCA因子分析线性判别分析核P.原创 2020-09-28 17:37:35 · 1469 阅读 · 0 评论 -
史上最全的Python定量金融三方库汇总
Python在定量金融领域的应用非常广泛,从衍生品定价到量化交易,Python社区提供了大量解决问题的工具。本文汇总了定量金融的大量三方库,按功能进行分类,覆盖数值运算,衍生品定价,回溯检验,风险管理,数据爬取,可视化等多个子领域,供每个Python程序员参考。不要重复造轮子,明确要解决的问题,然后寻找相应的工具。很多著名的包如Numpy,Pandas,Seaborn,backtrader等已经被证明高度有效,即便没有找到符合应用场景的包,类似的工具也能够为创建自己的解决方案提供参考。内容来源于G.原创 2020-09-27 17:30:10 · 7268 阅读 · 4 评论 -
Excel还是Python?一文教你集成Python和Excel!
Excel是很出色的工具,但有时候它不够好用。当数据集较小,需要处理的问题比较简单时,Excel最好用。但是一旦跳出这些舒适区域,就会发现Excel无法满足业务需求。当然,可以使用VBA来解决问题,但为什么不考虑Python呢,借助xlwings这个三方库,我们可以把Python和Excel完全集成到一起。为什么要集成Python和ExcelExcel VBA能完成很多数据分析工作,包括自动化。那么为什么要使用Python?有以下几个重要的原因:即便不用VBA,也可以在Excel中创建自定义函数。原创 2020-09-24 17:42:33 · 938 阅读 · 0 评论 -
Python机器学习实战:维数约简之主成分分析(PCA)详解
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。1. 降维和PCAPCA即主成分分析(Principal Component Analysis),要理解PCA,首先要理解一个更广义的概念:降维。降维即降低数据集的维度,这里的维度指的是输入变量或者特征的数量。机器学习算法要求输入是大小为(n_samples, n_features)的二维矩阵(类似excel表格),n_sa原创 2020-09-21 16:31:25 · 1735 阅读 · 0 评论 -
Python机器学习实战:掌握这四个特征选择方法,提升模型预测性能
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。当数据集包含很多特征,例如超过100个,该如何处理?有的特征可能是噪音,没有预测能力,部分特征之间可能高度相关,如果把所有数据喂到机器学习算法,会导致糟糕的结果:预测精度低,这点容易理解,即所谓垃圾进垃圾出(garbage in, garbage out)低泛化能力模型训练的时间更长为了解决这个问题,需要使用特征选原创 2020-09-18 17:22:28 · 3121 阅读 · 0 评论 -
Python机器学习实战:特征缩放的3个方法
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。什么是特征缩放?特征缩放(feature scaling): 改变特征的取值范围,缩放到统一的区间,例如[0,1][0, 1][0,1].为什么要进行特征缩放?数据集包含众多特征,每个特征的尺度(scale)不同,有的特征的单位是小时,有的特征的单位是公里,尺度不同也意味着变化的范围不同,有的特征的波动非常大,有的非常小。原创 2020-09-17 17:17:40 · 1670 阅读 · 0 评论 -
Python机器学习实战:如何处理非数值特征
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。机器学习模型要求输入为数值变量,特征必须是大小为(n_samples, n_features)的数值矩阵,目标是(n_samples, 1)的数值向量。但现实世界的数据集有可能包含非数值数据,例如分类变量,文本数据和图像。这时候需要进行数据预处理(data preprocessing),即采用一些技巧将非数值变量转换为数值变量原创 2020-09-14 17:22:22 · 4153 阅读 · 2 评论 -
Python数据可视化:往图表中添加文本就是这么简单
一图胜千言,使用Python的matplotlib库,可以快速创建高质量的图形。我们推出一个新的系列教程:Python数据可视化,针对初级和中级用户,将理论和示例代码相结合,使用matplotlib, seaborn, plotly等工具实现可视化。本文的主题是用Matplotlib往图表中添加文本。有时候我们希望向图表中添加文本,一些简单的描述能够突出重点,帮助读者理解图表的含义。Matplotlib提供两种添加文本的接口:ax.textax.annotateimport osimpo原创 2020-09-11 17:18:49 · 4089 阅读 · 0 评论 -
Python机器学习实战:如何用Pandas处理缺失值
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。现实和教程最大的区别之一是,现实的数据集是混乱不堪的,数据科学家90%的时间都花在数据预处理上,其中就包括处理缺失值(missing values)。Python做数据科学项目时通常用Pandas存储数据,所以我们重点讨论如何用Pandas处理缺失值。1. 如何表示缺失值用python处理数据主要通过numpy和panda原创 2020-09-10 17:49:18 · 1188 阅读 · 0 评论 -
针对Python开发人员的10个很棒的项目创意
Python是世界上使用最广泛的编程语言之一,并且可以为其通用性质做出贡献,这使其成为解决各个领域问题的合适工具。使用Python,您不仅可以为网络开发程序,还可以为桌面和命令行开发程序。Python可以适合各种技能水平的程序员,从学生到中级开发人员,再到专家和专业人士。但是每种编程语言都需要不断学习,Python也是如此。如果您真的想获得深入的实践知识,没有比使用Python更好的方法来进行一些很棒的项目,这些项目不仅可以让您在空闲时间忙碌,而且可以教您如何获得更多有用的Python知识。选择项目平台原创 2020-09-09 18:58:24 · 457 阅读 · 0 评论 -
Python机器学习实战:划分训练集和检验集
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。1. 训练集和检验集在应用机器学习算法前,一般将数据集划分为训练集(training set)和检验集(test set),训练集用于拟合模型,检验集用于评估预测能力。机器学习模型往往包含很多参数,如果不使用检验集而是直接评估样本内的预测精度,会受到过度拟合的影响。所谓过度拟合,就是模型找到了本来不存在的规律,利用检验集来校原创 2020-09-08 18:57:10 · 1334 阅读 · 0 评论 -
Python数据可视化:如何用Matplotlib创建子图
一图胜千言,使用Python的matplotlib库,可以快速创建高质量的图形。我们团队推出一个新的系列教程:Python数据可视化,针对初级和中级用户,将理论和示例代码相结合,使用matplotlib, seaborn, plotly等工具实现可视化。本文的主题是如何用Matplotlib创建子图。Matplotlib有一个概念subplot:包含在Figure对象中的小型Axes对象。这允许我们在一幅图中创建很多个子图,方便对比数据。创建子图的3种常用方法:fig.add_axesplt.原创 2020-09-07 18:26:29 · 2534 阅读 · 0 评论