- 博客(274)
- 收藏
- 关注
原创 【数据分析面试】46. 华尔街情感分析挑战 (ML问答)
华尔街的投资公司聘请你作为机器学习工程师。你的任务是在 Reddit(类似百度贴吧的论坛网站) WallStreetBets 的数据集上开发情感分析模型。在你开发和运行模型之后可能出现的潜在问题有哪些呢?
2024-05-17 19:00:00 412
原创 【机器学习项目】电信行业的客户流失预测模型
在电信行业,顾客可以从各种服务提供商中选择。顾客流失被定义为顾客停止与公司或服务进行业务往来的情况。该项目任务是使用提供的其余数据建立一个预测客户流失的模型。
2024-05-17 10:00:00 695
原创 【数据分析面试】45.亚马逊SQL订单数据问题
在最近的一次Amazon数据分析师面试中,要求候选人编写SQL查询获取一下数据。更多详细答案可关注公众号查阅。
2024-05-16 17:03:13 505
原创 【数据分析面试】44.分析零售客户群体(Python 集合Set的用法)
集合(Set)用于存储多个不重复的元素。集合是无序的,并且元素不能重复。集合支持各种数学集合操作,如并集、交集和差集。考虑使用python中关于集合的操作。注意题目要求生成一个字典,想想字典和集合有什么不同。假设你是一家在线零售商的数据库管理员,需要分析两类客户的数据。包含在最近一次促销活动中购买了商品的客户ID,另一个集合。对称差集是所有属于一个集合但不属于另一个集合的元素。包含订阅了新闻通讯的客户ID。
2024-05-15 18:00:00 345
原创 【数据分析面试】43.寻找给小费最多的客人(Python:字典用法)
给定两个非空列表`user_ids`和`tips`,编写一个名为`most_tips`的函数,用于找到给小费最多的客户。
2024-05-14 18:00:00 529
原创 【Power BI】DAX语言 VS Power Query M语言
DAX(Data Analysis Expressions)和Power Query M语言是Microsoft Power BI和Excel中的两种强大的数据处理和分析工具。尽管它们在许多方面都有重叠之处,特别是用于数据建模和数据转换,但它们在用途、语法和功能上有显著的区别。本文将详细探讨DAX和Power Query M语言的区别。
2024-05-14 16:00:30 1351
原创 【数据分析面试】42.用户流失预测模型搭建(资料数据分享)
保持高的客户留存率可以稳定和提到企业的收入。因此,预测和防止客户流失是在业务中常见的一项数据分析任务。这次分享的数据集包括了电信行业、银行、人力资源和电商行业,涵盖了不同业务背景下的流失预测数据。
2024-05-13 17:09:58 396 1
原创 【数据分析面试】41.如何分析处理Netflix流失用户?(业务分析)
假设有一百万 Netflix 用户在过去六个月内没有登录到 Netflix。你会如何确定原因?以及你会如何处理这些用户?
2024-05-12 17:50:11 1211
原创 【数据分析面试】40.20个数据开发治理基础问题
在当今数字化时代,数据已成为企业最重要的资产之一。如何管理数据、确保数据的安全性和质量,以及如何有效地利用数据来推动业务发展,这些都是我们面临的挑战。
2024-05-10 18:05:39 1496
原创 【数据分析面试】39.银行交易滚动平均值 (SQL:滑动窗口ROWS)
我们有一个银行交易表,包含三列,`user_id`、存款或取款值(根据值是正数还是负数确定),以及每笔交易的 `created_at` 时间。计算存款的三天滚动平均值,并按日输出。
2024-05-09 18:00:00 436
原创 【数据分析面试】38.更新图书馆数据(Python)
作为一名精通Python的图书管理员,你正在搭建一个更高效地更新图书数据的系统。编写一个函数,用于更新数据表中特定 `book_id` 的 `availability` 值,并返回更新后的数据表。
2024-05-08 18:00:00 169
原创 【数据分析面试】37.找出连续出现3次的数字(SQL:LEAD()和 LAG()的使用)
给定一个日志表 `Logs`,包含两列:`Id` 和 `Num`。请编写一个 SQL 查询,找出在 `Num` 列中连续出现至少三次的数字。
2024-05-07 18:00:00 707
原创 什么是B2B SaaS公司?
在当今数字化时代,B2B SaaS公司正在以惊人的速度崛起,成为企业界的一股重要力量。但是,对于许多人来说,B2B SaaS究竟是什么,以及它如何影响商业生态,可能还是一片未知。本文将简要介绍B2B SaaS公司的概念,以及其商业模式。
2024-05-06 19:00:00 974
原创 【数据分析面试】36.SAAS公司邮件营销策略分析(业务分析)
假设你在一个B2B SAAS公司营销团队工作。本季度即将结束,但当前收入距离预期目标还差10%。营销团队的一个高管要求负责电子邮件营销的人向所有客户群发邮件,要求他们购买更多产品。这是个好主意吗?为什么?
2024-05-06 19:00:00 771
原创 数据分析及AI技术在旅游行业的应用
旅游行业是一个充满潜力和机遇的领域,而数据分析和人工智能(AI)技术的迅猛发展为这个行业带来了前所未有的机遇和挑战。本文将探讨数据分析及AI技术在旅游行业中的具体应用及其带来的影响。
2024-05-01 16:20:42 1555
原创 【数据分析面试】35.20个机器学习问答题
交叉验证是一种评估模型性能的统计技术,交叉验证通过将数据集划分为多个子集,轮流使用其中一个子集作为测试集,其余子集作为训练集来评估模型的性能,以获取更可靠的模型性能估计。在机器学习中,交叉验证可以帮助评估模型的泛化能力,减少因数据划分不当而引入的偏差。
2024-04-30 17:01:12 1122
原创 海外三大AI图片生成器对比(Stable Diffusion、Midjourney、DALL·E 3)
海外三大AI图片生成器对比:Stable Diffusion、Midjourney、DALL·E 3
2024-04-28 23:41:45 1663
原创 【数据分析面试】32.矩阵元素求和 (Python: for…in…语句)
这个问题的关键在于遍历矩阵中的所有元素,并对它们求和。我们可以通过嵌套循环遍历矩阵的行和列,并累加每个元素的值来解决这个问题。关键字用于指定要迭代的可迭代对象。循环体内的代码将被执行,针对可迭代对象中的每个元素都会执行一次。你的任务是编写一个函数,返回矩阵中所有元素的和。是Python中的一种迭代结构,用于遍历可迭代对象中的元素。该函数应能处理正整数和负整数,并将求和结果作为一个整数返回。结构的语法使得在处理循环迭代时非常简洁和易读。是循环中的变量,它依次存储了列表。中的每个元素,然后将其打印出来。
2024-04-27 17:41:04 466
原创 17个机器学习/数据科学必学的Python库
本文介绍了17个常用的Python工具库,涵盖了数据处理、统计分析、数据可视化和机器学习等领域的关键功能,支持使用者在数据科学和人工智能领域进行各种任务和项目的开发。
2024-04-26 19:33:13 827
原创 【数据分析面试】30. 用户订阅预测模型 (机器学习:Boosting 算法)
假设你在一家媒体公司工作。你正在对用户活动数据集进行 Boosting 算法的训练,以预测用户是否会转换为付费订阅。在训练模型时,一位同事建议将模型分为两个,一个针对老用户,另一个针对新用户。这是否是一个好方法?为什么?
2024-04-25 17:07:19 544
原创 Power BI 如何解决月份排序错误/乱序问题(自定义顺序/正确排序)
如何在PowerBI中解决乱序问题,令图表正确排序、按照自定义的标签顺序
2024-04-25 12:06:08 3233
原创 Power BI 如何创建页面导航器?(添加目录按钮/切换页面按钮)
在Power BI中,页导航(Page Navigation)是指在报告中创建多个页面(页),然后允许用户在这些页面之间进行导航的功能。如下图所示,页导航的选项和报告中的页面相同。通过这个功能可以迅速创建目录按钮,而且页导航是同步更新的,用户在删减页面的同时,页导航也会自动调整,节省了修改的时间。
2024-04-23 22:26:42 1905
原创 【数据分析面试】28. 20个Python问答题 (入门级考察:基础操作、数据处理与分析统计)
20个问题考察了 Python 的基础能力,包括数据结构、基本操作、数据处理、数据分析和统计等方面。无论是从事数据分析、机器学习还是其他数据相关工作,这些都是都是必不可少的基础技能。
2024-04-23 18:00:00 959
原创 【数据分析面试】27. 计算广告评论比例 (SQL)
假设你有一个ads表,包含ID和广告名称,比如“劳动节衬衫促销”。表保存了不同用户在常规信息流中对广告的评论。表保存了不同用户在moments中对广告的评论。编写一个查询,获取广告在feed和moments中的评论比例。表ad_iduser_idcomment_id表ad_iduser_idcomment_idads表idname。
2024-04-22 21:30:00 209
原创 【Python】set() 函数详解:集合运算、查找、去重 (附代码示例)
本文介绍了 Python 中函数 set() 的功能,包括创建集合、数据去重、快速查找和集合运算等操作。
2024-04-21 18:15:00 4135 1
原创 【数据分析面试】26.判断相同字符 (Python:set函数用法解析)
给定一个字符串列表,请编写一个Python程序来检查每个字符串是否具有相同的所有字符。
2024-04-21 17:37:43 680
原创 【数据分析面试】25.求字母序数位置总和(Python:ord函数)
字母和是字符串中每个字母在标准英语字母顺序中的序数位置的总和。因此,字母a的值为1,z的值为26,依此类推。写一个python函数计算英文单字的字母和。
2024-04-20 12:45:29 279
原创 如何训练一个大语言模型(LLMs)
在当今数字时代,语言模型已经成为自然语言处理任务的强大工具,从文本生成到情感分析和机器翻译等各个方面都有涉猎。然而,训练这些模型需要仔细的规划、大量的计算资源以及机器学习技术方面的专业知识。那么一个大型语言模型(LLMs)到底是如何训练出来的呢?在查阅了解之后,我们将相关内容整理出来。在本文中,将和大家一起探讨训练LLMs所涉及的步骤
2024-04-19 13:06:35 2124
原创 【数据分析面试】23.Airbnb 预测模型选择 (机器学习:线性回归Vs随机森林)
现在需要你搭建一个模型去预测对Airbnb上的房价。在线性回归和随机森林两种模型中,哪个会表现更好?
2024-04-18 11:30:00 392
原创 【数据分析面试】22.补充缺失数据(Python:数据插值interpolate()用法)
线性插值是一种方法,用于在已知数据点之间的位置估算缺失值。它假设数据的变化是直线形式的。比如,如果你有两个点的数据,线性插值会用一条直线连接它们,然后根据这条直线上的位置来估算其他点的值。在时间序列数据中,线性插值通过已知时间点的数据来估算缺失时间点的数据,假设数据在时间上是线性变化的。举个例子,假设我们有一条线上有两个点 A 和 B,它们的坐标分别是 (x1, y1) 和 (x2, y2)。线性插值会根据这两个点之间的直线来估算任意两个点之间的值。
2024-04-17 11:30:00 1865
原创 【数据分析面试】21.Spotify 音乐数据库搭建(SQL主键和外键)
Spotify是一家总部位于瑞典的音乐流媒体服务提供商。假设现在你在Spotify工作,你需要设计一个用于存储歌曲元数据的关系型数据库。你会如何设计?如果还需要设计用户数据库呢?
2024-04-16 17:44:43 1075
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人