0，阿里+头条+腾讯大厂Python笔试真题

最新推荐文章于 2024-07-28 15:46:11 发布

2401_84102840

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量1k

点赞数 26

分类专栏： 2024年程序员学习文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/2401_84102840/article/details/137343964

版权

2024年程序员学习专栏收录该内容

181 篇文章 0 订阅

订阅专栏

高效的内存在执行过滤/选择/子集时没有内存副本。
可视化：直接支持，单线通常就足够了。
用户友好的API：只需处理一个数据集对象，制表符补全和docstring可以帮助你：ds.mean，类似于Pandas。
精益：分成多个包
Jupyter集成：vaex-jupyter将在Jupyter笔记本和Jupyter实验室中提供交互式可视化和选择。

打开100GB数据集只需0.052秒

第一步是将数据转换为内存可映射文件格式，例如Apache Arrow，Apache Parquet或HDF5。在此处也可以找到如何将CSV数据转换为HDF5的示例。数据变为内存可映射格式后，即使在磁盘上的大小超过100GB，也可以使用Vaex即时打开（只需0.052秒！）：

为什么这么快？当使用Vaex打开内存映射文件时，实际上没有进行任何数据读取。Vaex仅读取文件的元数据，例如磁盘上数据的位置，数据结构（行数、列数、列名和类型），文件说明等。那么，如果我们要检查数据或与数据交互怎么办？打开数据集会生成一个标准的DataFrame并对其进行快速检查：

注意，单元执行时间太短了。这是因为显示Vaex DataFrame或列仅需要从磁盘读取前后5行数据。这将我们引向另一个重点：Vaex只会在需要时遍历整个数据集，并且会尝试通过尽可能少的数据传递来做到这一点。

无论如何，让我们从极端异常值或错误数据输入值开始清除此数据集。一个很好的方法是使用describe方法对数据进行高级概述，其中显示了样本数、缺失值数和每一列的数据类型。如果列的数据类型为数字，则还将显示平均值、标准偏差以及最小值和最大值。所有这些统计信息都是通过对数据的一次传递来计算的。

使用describe方法获得 DataFrame 的高级概览，注意这个 DataFrame 包含 18 列数据，不过截图只展示了前 7 列。

该describe方法很好地体现了Vaex的功能和效率：所有这些统计数据都是在我的MacBook Pro（2018款15英寸，2.6GHz Intel Core i7，32GB RAM）上用不到3分钟的时间计算出来的。其他库或方法都需要分布式计算或拥有超过100GB的云实例来执行相同的计算。而使用Vaex，你所需要的只是数据，以及只有几GB RAM的笔记本电脑。

查看describe的输出，很容易注意到数据包含一些严重的异常值。

首先开始检查上车地点。消除异常值的最简单方法是简单地绘制上下车地点的位置，并直观地定义我们要集中分析的NYC区域。由于我们正在使用如此大的数据集，因此直方图是最有效的可视化效果。使用Vaex创建和显示直方图和热力图的速度很快，而且图表可以交互！

一旦我们通过交互决定要关注的NYC区域，就可以简单地创建一个筛选后的DataFrame：

关于上面的代码，最酷的事情是它需要执行的内存量可以忽略不计！在筛选Vaex DataFrame时不会复制数据，而是仅创建对原始对象的引用，在该引用上应用二进制掩码。用掩码选择要显示的行，并将其用于将来的计算。这将为我们节省100GB的RAM，而像今天许多标准数据科学工具却要复制数据。

现在，检查一下该passenger_count列。单次出租车行程记录的最大乘客数为255，这似乎有些夸张。计算每次行程的乘客人数，使用以下value_counts方法很容易做到这一点：

在 10 亿行数据上使用 value_counts 方法只需要 20 秒

从上图可以看出，载客超过6人的行程可能是罕见的异常值，或者仅仅是错误的数据输入，还有大量的0位乘客的行程。由于目前我们尚不了解这些行程是否合法，因此我们也将其过滤掉。

让我们对行程距离进行类似的练习。由于这是一个连续变量，因此我们可以绘制行程距离的分布图。让我们绘制一个更合理范围的直方图。

纽约出租车数据行程距离直方图

从上图可以看出，出行次数随着距离的增加而减少。在距离约100英里处，分布有明显下降。目前，我们将以此为起点，根据行程距离消除极端离群值：

出行距离一列中存在极端异常值，这也是研究出行时间和出租车平均速度的动机。这些功能在数据集中尚不可用，但计算起来很简单：

上面的代码块无需内存，无需花费时间即可执行！这是因为代码只会创建虚拟列。这些列仅包含数学表达式，并且仅在需要时才进行评估。此外，虚拟列的行为与任何其他常规列都相同。注意，其他标准库将需要10 GB的RAM才能进行相同的操作。

好了，让我们来绘制行程耗费时间的分布：

纽约超过 10 亿次出租车行程耗费时间的直方图

从上面的图中可以看出，尽管有一些行程可能需要花费4至5个小时，但95％的出租车花费不到30分钟即可到达目的地。你能想象在纽约市被困出租车中超过3个小时吗？无论如何，我们要保持开放的态度，并考虑所有花费时间少于3小时的行程：

现在，让我们研究出租车的平均速度，同时选择一个合理的数据范围：

出租车平均速度分布

根据分布趋平的位置，我们可以推断出在每小时1到60英里之间合理的平均滑行速度，因此可以更新筛选后的DataFrame：

将重点转移到出租车费用上。从describe方法的输出中，我们可以看到在fare_amount，total_amount和tip_amount列中有一些疯狂的异常值。对于初学者，任何这些列中的任何值都不应为负。同时数字表明，一些幸运的司机仅凭开一次出租车便几乎成为了百万富翁。让我们看一下在相对合理的范围内这些数量的分布：

纽约超过 10 亿次出租车行程的车费、总额和小费的分布。在笔记本上绘制这些图表只用了 31 秒！

我们看到上述所有三个分布都有相当长的尾部。尾部的某些值可能是合法的，而其他值可能是错误的数据输入。无论如何，让我们先保守下，只考虑fare_amount，total_amount和tip_amount少于$200的行程。我们还要求fare_amount，total_amount值大于$0。

最后，在初步清理完所有数据之后，让我们看看有多少出租车数据需要进行分析：

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

一个人可以走的很快，但一群人才能走的更远。如果你从事以下工作或对以下感兴趣，欢迎戳这里加入程序员的圈子，让我们一起学习成长！

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

迎戳这里加入程序员的圈子，让我们一起学习成长！**](https://bbs.csdn.net/forums/4304bb5a486d4c3ab8389e65ecb71ac0)

2401_84102840

关注

26
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
0，阿里+头条+腾讯大厂Python笔试真题

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫