自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 数据工程指南高级技能:连接和缓冲器

在之前的文章中,我们介绍了数据工程的入门知识和基础技能,接下来继续探讨高级技能。数据工程指南系列:《数据工程指南:初学者入门》《数据工程指南:基础技能》《数据工程指南高级技能:如何选择数据平台》《数据工程指南高级技能:Hadoop平台》原文来源于Github开源项目《The Data Engineering Cookback》作者:Andreas Kretz感兴趣可以查看:Data Engineering Cookbook连接REST APIAPI:即应用程序接口(Applicat

2020-10-30 10:07:23 159

原创 数据工程指南高级技能:Hadoop平台

当人们谈论大数据时,首先想到的是Hadoop。如果你用谷歌搜索Hadoop,大约会返回2800万个结果。今天我要告诉大家为什么Hadoop如此流行。Hadoop已经从一个平台发展成一个生态系统,它的设计允许很多Apache项目和第三方工具从Hadoop中受益。在之前的文章中,我们探讨了入门知识和基础技能,接下来继续探讨高级技能。系列文章:《数据工程指南:初学者入门》《数据工程指南:基础技能》《数据工程指南高级技能:如何选择数据平台》原文来源于Github开源项目《The Data Engi

2020-10-28 09:54:17 249

原创 数据工程指南高级技能:如何选择数据平台

数据工程指南:教大家如何成为优秀的数据工程师。在之前的文章中,我们探讨了入门知识和基础技能,接下来深入介绍高级技能。系列文章:《数据工程指南:初学者入门》《数据工程指南:基础技能》原文来源于Github开源项目《The Data Engineering Cookback》作者:Andreas Kretz感兴趣可以查看:Data Engineering Cookbook为什么需要一个好的数据平台?我在这个视频教程中谈到了数据平台的重要性:从数据工程师的角度看数据科学项目大数据 vs 数

2020-10-27 09:57:30 220

原创 数据工程指南:基础技能

在上一篇文章中,我们探讨了数据工程的入门知识,包括数据科学家和数据工程师的区别,以及完整的数据工程蓝图,接下来我们介绍数据工程师应该具备哪些基础技能。原文来源于Github开源项目《The Data Engineering Cookback》作者:Andreas Kretz感兴趣可以查看:Data Engineering Cookbook学会编程为什么这很重要:没有代码,你无法完成数据工程的任务。可能性是无穷的:从SQL数据库中写入和读取数据将消息写入Kafka主题了解Java We

2020-10-26 09:59:41 511 1

原创 数据工程指南:初学者入门

别人经常问我,如何成为一名优秀的数据工程师?你会在这份指南中找到答案。如果你正在寻找人工智能算法或类似的学习资料,这些内容不适合你。如何使用这份指南:这本书是你的起点,而不是训练!我想帮助您确定要研究的主题,并在此过程中成为一名出色的数据工程师。我会介绍数据科学平台每个关键领域的工具(连接、缓冲区、处理框架、存储、可视化),选择一些你感兴趣的工具,研究并使用它们。原文来源于Github开源项目《The Data Engineering Cookback》作者:Andreas Kretz感兴趣

2020-10-24 08:53:23 1546 1

原创 新手入门指南:如何构建数据仓库和管道

构建数据仓库(data warehouse)和数据管道(data pipelines)是非常复杂的事情,如果你进入数据工程的世界,很快就会发现没有完全正确或错误的方法,如何创建取决于项目需求。然而在构建数据管道时,应该遵循一些基本流程,这样可以提高数据管道的可操作性和性能。在这篇文章中,我向大家分享一个路线图,作为构建数据仓库和管道的指南。基本概念DataSchool的《Cloud Data Management》是学习构建数据仓库的很好的教程。在这本书中,他们介绍了处理数据的4个阶段,这些阶段是数

2020-10-22 09:50:54 761

原创 程序员的9个经验教训,只有亲身经历才会懂

程序员从挫败中吸取经验,不断进步,本文介绍我亲身经历的9个经验教训。1. 不存在最便宜,最快速,最可靠的软件这是戈登·贝尔的名言,这里要吸取的经验教训是,你应该设计尽可能简单的系统或软件,降低复杂性以减少bug的数量。2. 理解你的代码有时候你修复了一个bug,但不明白问题是怎么解决的。相信大多数程序员都经历过这种情况。确保你理解自己的代码,找出为什么这个修复起了作用。刨根问底的心态比什么都重要,在必要的时候要虚心求助,保持这种态度,不知不觉中你已经成为人们转而求助的对象。复制粘贴代码也是如此。

2020-10-21 09:38:29 1198 2

原创 这四个VSCode插件可以大幅提升Python开发效率

作为一个数据科学家,拥有良好的编码惯例非常重要,这样可以让同事更容易地阅读和理解你的代码,避免混淆。为了让代码易于理解,应该做到以下几点:类型提示代码文档仅保留有用的变量,函数和包突出显示代码中需要改进的部分避免琐碎的错误VSCode是我最喜欢的IDE,在这篇文章中,我将介绍4个插件,它们能帮助我们实现以上提出的几点原则,提升代码质量。Python Type Hint类型提示明确指出变量的数据类型,当调用函数或类时,“提示”程序员应该提供什么类型的参数。例如下面的函数,明确指出参数是

2020-10-20 09:42:26 2395

原创 你现在应该学习使用FastAPI

Python一直是开发轻量级web应用程序的热门选择,这要归功于Flask、Django、Falcon等许多优秀的框架。由于Python是机器学习的头号语言,打包模型并将其作为服务公开尤其方便。多年来,Flask一直是这项工作的头号工具,但如果你没有听说过,现在有一个新的挑战者。FastAPI是Python的一个相对较新的web框架,它从它的前辈那里汲取灵感,完善它们并修复其许多缺陷。建立在Starlette之上,它带来了一大堆令人敬畏的功能。简单但精彩的UI所有的web框架都需要在功能和给开发者自由

2020-10-16 09:45:11 1070

原创 处理超大型数据的17个策略

原文出处:Medium作者:Jeff Hale原文标题:17 Strategies for Dealing with Data, Big Data, and Even Bigger Data处理大数据很棘手。没有人喜欢内存不足的错误,没有人喜欢等待代码长时间运行,没有人喜欢离开Python。Python是数据科学领域最流行的语言,Numpy和Pandas是进行数值计算和数据分析的主要工具。不幸的是,如果你在本地工作,pandas可以处理的数据量受计算机内存的限制。如果你在云端工作,更多的内存会.

2020-10-15 09:48:09 754

翻译 VSCode是否会成为最好的Python IDE?

原文出处:Medium作者:Matthew MacDonald原文标题:Has VS Code Become the Best IDE for Python?Visual studio code是一个模块化的代码编辑器,因此扩展是必需的。您可以使用它们来获取基本的功能,如语言编译器,以及有用的工具,如代码格式化程序、linter和profiler。仔细看,你甚至会发现表情符号支持。VS code市场大约有20000个扩展。但多年来,一直有一个不受挑战的扩展主导着排名。最流行的VS代码扩展是Pyt.

2020-10-15 09:44:39 635

原创 使用click创建完美的Python命令行程序

Python程序员的主要工作是写命令行程序,即直接在终端运行的脚本。随着项目规模增长,我们希望创建有效的命令行接口,通过提供不同的参数,解决不同的问题,而不是每次都修改源代码。Click库是一个非常高效的命令行工具,能够帮助我们快速创建完美的命令行接口,小编认为这是每个Python程序员都应该掌握的工具。原文出处:Medium作者:Yannick原文标题:perfect-command-line-interfaces-python作为Python开发人员,我们经常编写命令行程序。例如,在.

2020-10-13 09:56:53 547

原创 如何用Python下载并分析期货持仓数据

期货持仓报告期货持仓报告,简称COT(Commitment of Traders)报告,记录机构投资者包括商业公司和对冲基金的期货持仓数据。由美国期货交易委员会(CFTC)公布,公布时间是每周五下午2点30分(美东时间)。我们关注的是传统格式(Legacy Format)的COT报告,汇总了期货和期权的持仓数据。传统格式的COT报告包含以下数据:商业持仓(Commercial): 产品制造商/销售商的期货持仓,划分为多头和空头,用期货来对冲价格波动的风险。非商业持仓(Noncommercial)

2020-10-12 10:32:36 2529

原创 Python3.9来了,有哪些新变化?

Python 3.9.0 最终版本于2020年10月5号发布。像多数Python爱好者一样,我非常兴奋地探索着最新的功能,本文将为大家展示10个有趣的新特征。本文来源于Medium,翻译校对:蜂鸟数据,原文作者:Farhad Malik,原文标题:10 Awesome Python 3.9 Features1. 字典更新和合并字典添加两个新的运算符,’|‘和’|=’。'|‘运算符用于合并字典,’|='运算符用于更新。字典合并:字典更新:2. 基于PEG的高性能解析器Python

2020-10-10 10:19:31 995

原创 Jupyterlab + Ipywidgets,打造交互式分析平台

使用JupyterLab(Jupyter Notebook)分析数据时,一遍又一遍地重新运行同一单元格(每次稍微修改参数)的代码是非常低效的。尽管如此我还是会这么做,例如为函数选择不同的值,为分析选择不同的日期范围,甚至调整图表的主题。这不仅效率低下,而且令人沮丧,破坏了探索性数据分析的流程。解决问题的理想方案是使用交互式控件来更改输入,而无需重新运行代码。幸运的是已经有人创造了解决问题的工具。在本文中,我们将学习如何使用Ipywidgets,使用短短几行代码来构建交互式控件。这个库能够将Jupyter

2020-10-09 10:17:25 2236 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除