
数据分析 ⛵ 面试宝典&实战项目
文章平均质量分 93
数据分析是AI从业者的基本功!ShowMeAI在这里分享基础&最新的工具库教程,也展示趣味/时事数据分析的完整代码流程,还有面试场景下的SQL必学要点!有趣又有料!获取资料与全部更新,请前往 www.showmeai.tech/tutorials/40 欢迎关注我呀!
ShowMeAI
人工智能领域硬核资料库和学习社区,构建AI解决方案,用知识加速每一次技术成长!
展开
-
交互式仪表板!Python轻松完成!⛵
本文使用 Kaggle 数据集创建了一个Demo,演示如何使用 Python 调用 ipywidget 模块,快速创建交互式仪表板。快用起来吧~原创 2022-12-27 11:24:23 · 9767 阅读 · 0 评论 -
百倍加速IO读写!快使用Parquet和Feather格式!⛵
本文介绍了 Parquet 和 Feather 两种文件类型,可以提高本地存储数据时的读写速度,并压缩存储在磁盘上的数据大小。大型 CSV 文件的克星!用起来~原创 2022-12-21 13:56:31 · 7450 阅读 · 0 评论 -
全自动化数据洞察!数据分布对比可视化!
本文介绍如何使用 Pandas Profiling 的比较报告功能,分析两个数据集的分布差异,完成数据探索分析 (EDA) 的完整流程,为后续分析做准备。原创 2022-12-16 16:33:51 · 7438 阅读 · 0 评论 -
深度解析数据清理和特征工程!5本面向数据科学家的顶级书籍推荐 ⛵
本文对比筛选了『数据清理』和『特征工程』最值得推荐的5本书,帮助你有效地清理数据、获取干净核心的数据,这是后续建模分析等工作有更好结果的保证。原创 2022-12-06 10:04:58 · 10939 阅读 · 1 评论 -
数据科学家赚多少?数据全分析与可视化 ⛵
本文揭秘全球数据科学岗位的薪资分布情况!以及分析岗位、国家、工作经验、雇佣形式、公司规模对薪资的影响,并贴心提供了求职建议和跳槽Tips!原创 2022-12-04 13:40:32 · 12972 阅读 · 0 评论 -
『航班乘客满意度』场景数据分析建模与业务归因解释 ⛵
本文结合航空出行的场景,使用机器学习建模,详细分析了航班乘客满意度的影响因素:机上Wi-Fi服务、在线登机、机上娱乐质量、餐饮、座椅舒适度、机舱清洁度和腿部空间等。原创 2022-12-01 14:26:05 · 17485 阅读 · 9 评论 -
就离谱!使用机器学习预测2022世界杯:小组赛挺准,但冠亚季军都错了 ⛵
本文使用机器学习建模对 FIFA 2022世界杯结果进行了预测,赛后将其与真实结果进行比较,可以看出:小组赛到1/4决赛的预测准确率很高,半决赛和决赛的预测准确率为0,冠亚季军无一预测准确。原创 2022-12-20 17:27:25 · 11946 阅读 · 0 评论 -
使用python玩转二维码!速学速用!⛵
本文讲解二维码的生成与解码:使用Python工具库qrcode『构建二维码』,使用cv2和pyzbar两类工具库『解码二维码』。二维码是目前最常使用的快捷信息存储方式之一,读完本篇即可掌握这一必备技能!原创 2022-11-27 17:28:35 · 10631 阅读 · 0 评论 -
一文读懂!异常检测全攻略!从统计方法到机器学习
本文系统介绍了『单变量异常检测』和『多变量异常检测』识别技术,包括传统的统计方法(四分位距、标准差),以及前沿的机器学习模型(孤立森林、DBSCAN、LOF局部离群因子)。原创 2022-11-26 14:09:24 · 11761 阅读 · 0 评论 -
高手系列!数据科学家私藏pandas高阶用法大全 ⛵
本文汇总介绍了21个 Pandas 进阶用法,能保持代码整洁优雅,更能提高代码效率!这篇是从数据科学家朋友那里搞到的私藏,快一起薅羊毛~原创 2022-11-22 09:40:13 · 14283 阅读 · 1 评论 -
Pandas太慢?快使用Vaex DataFrame,每秒数亿数据算起来 ⛵
本文详细介绍了Vaex这个强大的工具库,能够每秒处理数亿甚至数十亿行数据,而无需将整个数据集加载到内存中。对于大型数据的分析任务,Vaex的效率更简单,对硬件/环境的要求更少!pandas升级版!快用起来吧~原创 2022-11-21 16:09:43 · 13669 阅读 · 0 评论 -
私藏!资深数据专家SQL效率优化技巧
同一个数据分析的需求,不同人的SQL代码效率上会差别很大!本文给大家梳理集中效率优化方法,这也是数据岗面试的高频问题哦!快学起来~原创 2022-11-11 01:19:28 · 10950 阅读 · 0 评论 -
Python中内置数据库!SQLite使用指南!
使用Python内置库SQLite,可以方便地完成建表、插入数据、查询数据等数据库操作,也可以配合pandas进行灵活使用!高效工具库get!原创 2022-11-15 11:03:25 · 15827 阅读 · 0 评论 -
Pandas中你一定要掌握的时间序列相关高级功能
本文讲解Pandas工具库几个核心函数,能高效处理时间序列:resample、shift、rolling。帮你得心应手处理时间序列数据!原创 2022-11-14 15:26:10 · 10695 阅读 · 0 评论 -
业务数据分析最佳案例!旅游业数据分析!⛵
本文使用『城市酒店和度假酒店的预订信息』,对旅游业的发展现状进行数据分析,包含了完整的数据分析流程:数据读取、数据初览、数据预处理、描述性统计、探索性数据分析、关联分析、相关性分析。原创 2022-11-12 15:03:45 · 9644 阅读 · 0 评论 -
求职指南!给数据开发的SQL面试准备路径!
大量的数据科学职位需要精通 SQL,它也是数据分析师、数据科学家、数据建模岗最常考核的面试技能。在本篇内容中 ShowMeAI 将梳理汇总所有面试 SQL 问题,按照不同的主题构建练习专项块。原创 2022-09-28 08:00:00 · 11127 阅读 · 0 评论 -
还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)
本文讲解9种『炫酷高级』的数据图表,可视化地表示比例或百分比:哑铃图、甜甜圈图、华夫饼图、堆积条形图...附上代码,快快用起来吧!原创 2022-09-30 07:35:26 · 11597 阅读 · 0 评论 -
大数据开发!Pandas转spark无痛指南!
Pandas灵活强大,是数据分析必备工具库!但处理大型数据集时,需过渡到PySpark才可以发挥并行计算的优势。本文总结了Pandas与PySpark的核心功能代码段,掌握即可丝滑切换。原创 2022-09-22 09:15:16 · 13537 阅读 · 0 评论 -
异常值检测!最佳统计方法实践(代码实现)!
数据集中的异常值,对于数据分布、建模等都有影响。本文讲解两大类异常值的检测方法及其Python实现:可视化方法(箱线图&直方图)、统计方法(z分数&四分位距)。原创 2022-09-23 09:45:47 · 13038 阅读 · 0 评论 -
森林野火故事2.0:一眼看穿!使用 Panel和hvPlot可视化
本文讲解使用Panel、hvPlot等工具库,简单快速地制作可交互的数据仪表板,对180万起野火数据进行空间可视化,更直观地对起火原因、火势大小、持续时长进行单维或多维分析。原创 2022-09-21 09:13:04 · 13358 阅读 · 0 评论 -
精准用户画像!商城用户分群2.0!
客户分群(客户细分)对于绘制用户画像、构建个性化推广、产品和服务策略,都非常重要。本文讲解此过程中,多种机器学习聚类算法的建模流程与评估模式。原创 2022-09-26 09:37:16 · 12790 阅读 · 0 评论 -
2022!影响百万用户金融信用评分,Equifax被告上法庭,罪魁祸首——『数据漂移』!
数据随着时间变化,会导致已有模型的准确度大打折扣,这就是数据漂移问题。本文讲解数据漂移问题的诸多实际案例、检测方法、基于evidently库的代码实现。原创 2022-09-15 11:04:28 · 10951 阅读 · 0 评论 -
极端气候?自然灾害?【实战】机器学习预测森林火灾
森林野火是一种无计划、不受控制的火灾。本文基于NASA森林火灾数据集,讲解机器学习预测森林火灾的详细流程:数据探索、数据清洗&处理、数据拆分、评估指标、建模与预估。原创 2022-09-09 09:47:02 · 15078 阅读 · 1 评论 -
精准营销!用机器学习完成客户分群!
客户分群对于精准营销的意义重大,而机器学习可以优化这一过程。本文会详细拆解实现过程:数据收集、创建RFM表、探索数据&数据变换、应用聚类做用户分群、解释结果。原创 2022-09-08 10:37:36 · 12615 阅读 · 0 评论 -
自动化运维?看看Python怎样完成自动任务调度 ⛵
本文讲解如何使用Python的schedule库完成自动化调度程序,通过代『发送邮件』这一代码实例展示了构建任务与任务调度的全过程。原创 2022-08-27 10:06:53 · 9468 阅读 · 0 评论 -
再见 Excel,你好 Python Spreadsheets! ⛵
Mito 和 Bamboolib 是 Python 库,可以快速流畅地处理大文件表格,功能性与易用性与 Excel 不相上下,但是可以避免出现 Excel 中的卡顿和崩溃。二者的安装和调用都非常简单,绝对值得一试~【代码与数据集亲测可运行】.................................原创 2022-08-03 10:14:12 · 17470 阅读 · 0 评论 -
数据专家最常使用的 10 大类 Pandas 函数 ⛵
Pandas 是数据科学领域最受欢迎的 Python 工具库之一,函数与功能极其丰富。本文将数据科学家常用的二三十个功能函数总结为10类,熟练掌握就能轻松解决80%以上的数据处理问题!原创 2022-08-11 10:24:54 · 10001 阅读 · 0 评论 -
羡慕 Excel 的高级选择与文本框颜色呈现?Pandas 也可以拥有!! ⛵
通过 Styler API 的设置,Pandas 也能像 Excel 那样进行『条件选择』和 『文本框颜色』设置,一眼获取最关键信息!本文讲解 Pandas 使用单色(或渐变色)高亮显示缺失值、最大值、最小值、范围值等【数据与代码亲测可运行】...........................原创 2022-08-09 10:27:50 · 11386 阅读 · 0 评论 -
Pandas数据显示不全?快来了解这些设置技巧! ⛵
资深工程师最常用的 Pandas 显示设置技巧!Pandas数据显示不全?快来了解这些设置技巧,自定义显示的行数、列数、列宽,使浮点列之间的小数位精度保持一致、禁用科学记数法原创 2022-07-12 16:43:26 · 17688 阅读 · 2 评论 -
刘畊宏男孩女孩看过来!运动数据分析挖掘!(附全套代码和数据集) ⛵
运动穿戴设备(比如小米手环、华为手表、fitbit、Apple Watch)中记录了大量的运动数据,也记录着佩戴者的身体状况。本文结合 Kaggle fitbit 数据集,分析运动规律和卡路里的消耗情况。【代码与数据集亲测可运行】...............原创 2022-07-29 16:27:33 · 11472 阅读 · 0 评论 -
一键自动化数据分析!快来看看 2022 年最受欢迎的 Python 宝藏工具库! ⛵
探索性数据分析(EDA)在机器学习中至关重要!这些高效又绝美的宝藏库,快用起来——Matplotlib、Seaborn、Plotly、Bokeh、Altair、pandas-profiling、Sweetviz、AutoViz、Microsoft Power BI、Tableau!原创 2022-07-29 17:57:25 · 11401 阅读 · 0 评论 -
一键自动化数据分析!快来看看这些宝藏工具库
探索性数据分析(EDA)在机器学习中至关重要!这些高效又绝美的宝藏库,快用起来——Matplotlib、Seaborn、Plotly、Bokeh、Altair、pandas-profiling、Sweetviz、AutoViz、Microsoft Power BI、Tableau!原创 2022-07-12 16:38:02 · 13339 阅读 · 1 评论 -
数据分析大作战,SQL V.S. Python,来看看这些考题你都会吗 ⛵
SQL与Pandas都可以完成大部分数据分析需求。本文用SQL与Pands逐一实现10类核心数据分析需求,轻松进行对比学习:数据选择、限制、统计计数、排序、新字段生成、数据选择、数据分组、统计均值、方差、极差/范围。...原创 2022-09-03 11:00:42 · 8872 阅读 · 0 评论 -
羡慕实时数据看板?来看看Python的交互数据分析可视化工具! ⛵
Altair是Python统计可视化库,提供了强大而简洁的可视化语法,可以产出漂亮的数据分析可视化结果,并支持交互式操作和勾选局部数据深入分析。本文以实例讲解Altair的数据分析过程,以及交互文档报告的生成。...原创 2022-08-30 09:47:08 · 13289 阅读 · 0 评论 -
图解数据分析(8) | Numpy - 统计与数据科学计算工具库介绍(数据科学家入门·完结)
n维数组是NumPy的核心概念,大部分数据的操作都是基于n维数组完成的。本系列内容覆盖到1维数组操作、2维数组操作、3维数组操作方法,本篇为系列导入文章,讲解数组的特点、与列表的对比等。......原创 2022-02-28 13:41:53 · 9988 阅读 · 0 评论 -
图解数据分析(9) | Numpy - 与1维数组操作(数据科学家入门·完结)
n维数组是NumPy的核心概念,大部分数据的操作都是基于n维数组完成的。本系列内容覆盖到1维数组操作、2维数组操作、3维数组操作方法。本篇讲解Numpy与1维数组操作——向量初始化、索引、操作等。......原创 2022-02-28 13:41:58 · 10374 阅读 · 0 评论 -
图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)
n维数组是NumPy的核心概念,大部分数据的操作都是基于n维数组完成的。本系列内容覆盖到1维数组操作、2维数组操作、3维数组操作方法,本篇讲解Numpy与2维数组操作——向量初始化、矩阵操作等。......原创 2022-02-28 13:42:09 · 13017 阅读 · 0 评论 -
图解数据分析(11) | Numpy - 与高维数组操作(数据科学家入门·完结)
n维数组是NumPy的核心概念,大部分数据的操作都是基于n维数组完成的。本系列内容覆盖到1维数组操作、2维数组操作、3维数组操作方法,本篇讲解Numpy与3维、更高维数组的操作。原创 2022-02-28 13:42:14 · 10259 阅读 · 0 评论 -
图解数据分析(12) | Pandas - 数据分析工具库介绍(数据科学家入门·完结)
Pandas是Python中最常用到的数据操作和分析工具包,它构建在Numpy之上,具备简洁的使用接口和高效的处理效率。数据科学、机器学习AI应用过程,涉及数据清洗和分析的操作也频繁使用Pandas。原创 2022-02-28 13:42:22 · 10146 阅读 · 0 评论 -
图解数据分析(13) | Pandas - 核心操作函数大全(数据科学家入门·完结)
本篇为pandas系列的导语,对『Pandas核心操作函数』进行介绍,讲解Pandas进行数据操作和处理的核心数据结构:Series、DataFrame和Index。原创 2022-02-28 13:42:48 · 11669 阅读 · 0 评论