自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(272)
  • 收藏
  • 关注

原创 掌握Python eval()函数:解析动态代码执行的神奇之处

>> x = 100 # 一个全局变量200>>> y = 200 # 另一个全局变量如果向 globals 参数提供了一个自定义字典,那么eval()将只会使用该字典中的名称作为全局变量。任何在这个自定义字典之外定义的全局名称在eval()内部将无法访问。这就是为什么在上面的代码中尝试访问 y 时,Python 抛出 NameError 的原因:传递给 globals 的字典不包括 y。你可以通过在字典中列出名称来将名称插入到 globals 中,这样这些名称在评估过程中将可用。

2024-08-13 11:30:23 766

原创 Python推导式和生成器表达式

由于语法结构类似,有些地方会把生成器表达式称为“元组推导式”,或者把两者混为一谈。通常,所谓的“元组推导式”实际上是指生成器表达式。生成器对象是惰性求值的,只有在迭代时才会计算出每一个值,节省内存。总结来说,生成器表达式用于惰性求值和节省内存,而“元组推导式”并不存在,生成元组需结合生成器表达式与。如果按照Python推导式的定义,”元组推导式“应该返回一个元组,但实际输出结果是一个生成器对象。在上述示例中,生成器表达式返回一个生成器对象,而不是元组。注意:生成器表达式使用的是圆括号。

2024-08-07 17:34:23 256

原创 时间序列分析基础20问

时间序列数据是按照时间顺序排列的、在等间隔时间点上收集或记录的一系列数据点。例如,日常股票价格、每小时温度记录、每月销售数据等都属于时间序列数据。时间序列分析是一种统计方法,用于分析和解释在连续、等间隔时间点收集或记录的数据点。通过识别数据中的模式、趋势和关系,时间序列分析可以用来预测或预估未来值。趋势是指时间序列数据中长期的上升或下降的运动方向。它反映了数据随时间的总体变化趋势,而不考虑短期波动。比如某公司销售额的长期增长趋势,或某城市人口的长期增长。处理时间序列数据中的趋势涉及使用去除趋势的方法。

2024-08-06 17:29:21 781

原创 时间预知术:ETA(Estimated Time of Arrival)技术如何改变我们的生活

ETA(Estimated Time of Arrival),即预计到达时间,是指某个物体或某个人从出发地点到达目的地点的预计时间。ETA在多个行业和场景中有广泛的应用,特别是在物流、运输、餐饮配送、共享出行等领域中。准确的ETA不仅可以提高运营效率,还能提升用户体验。

2024-07-15 13:00:00 1037

原创 如何使用Github Page搭建个人网站【踩坑实录&多图预警】

使用GIthub Page 搭建个人网站的全过程记录

2024-07-12 14:51:48 1739 1

原创 Hive、SQL Server、MySQL 和 PostgreSQL 之间的对比区别

Hive是一个大数据处理工具,运行在 Hadoop 上,适合批量处理和分析海量数据。SQL Server是一个关系数据库系统,提供事务处理和实时数据访问,适合中到大规模的企业级数据管理和分析。MySQL是一个开源关系数据库系统,广泛用于中小型应用程序和网站,提供高并发的实时数据处理能力。PostgreSQL是一个开源关系数据库系统,提供高可扩展性和复杂查询功能,适合 OLTP 和 OLAP 工作负载,支持丰富的数据类型和高级查询功能。

2024-07-03 13:19:29 1158 1

原创 【笔记】神经网络中的注意力机制

个人笔使用,资料来源于网络整理,可能有误。

2024-06-28 16:47:47 694

原创 数据处理进阶:掌握Pandas中的transform函数

方法允许用户对数据集的每个元素进行某种操作,然后返回一个与原始数据集具有相同大小的新数据集。方法的语法和使用示例。无论是使用内置函数还是自定义函数,它都能帮助简化数据处理的流程,使其适用于各种不同的场景。方法可以帮助数据科学家和分析师更轻松地进行数据处理和特征工程,从而加速模型的建立和优化过程。在对数据进行分组后,应用不同的转换函数。还可以接受字典和列表,以不同的方式应用多个函数。在这个示例中,我们对列'A'应用了平方根函数,对列'B'应用了对数函数。的使用方法,以及它在数据处理中的实际应用。

2024-06-28 13:46:47 552

原创 【深度学习】快速入门KerasNLP:微调BERT模型完成电影评论情感分类任务

本文将介绍 KerasNLP 的安装及使用,以及如何使用它在情感分析任务中微调 BERT 的预训练模型。

2024-06-26 10:54:37 818

原创 【Pytorch】快速掌握迁移学习:代码示例与指南(使用预训练模型解决图像分类任务)

迁移学习指的是将一个已经训练好的模型用于其他的问题上。例如,利用在(包含数百万张图像)等大数据集中训练出来的模型,将它们用于支持我们FoodVision Mini模型——一个更加细分的食物图片分类任务上,迁移学习的原理是。它的核心思想是,即使两个问题并不完全相同,它们之间可能存在一些共享的特征或模式。通过将一个问题上学到的知识迁移到另一个问题上,我们可以加速学习过程,提高解决问题的效率。

2024-06-19 16:12:40 982

原创 Obsidian 工作区Workspace:实现切换和管理工作区的多任务处理插件

工作区保存和切换:Workspace 插件允许用户保存当前的窗口布局和打开的笔记状态,用户可以随时切换到不同的工作区,这样可以根据不同的任务需求快速恢复到特定的工作环境。布局管理:可以保存特定的面板布局、打开的文件、标签页等。这对于处理不同项目或任务非常有用,可以避免每次都重新打开和安排笔记。多任务处理:通过切换工作区,用户可以在多个项目之间无缝切换,而不必担心丢失当前的工作进度。

2024-06-16 12:17:42 755

原创 【数据分析面试】67.计算每日加权平均新用户数(SQL)

社交媒体平台的分析团队希望分析每日用户增长的短期趋势。为此,他们希望计算新日用户的 3 日滚动加权平均值,其中当天的权重为 3,前一天的权重为 2,前两天的权重为 1。表中计算新日用户的 3 日滚动加权平均值,并将平均值保留到小数点后两位。有缺失日期的情况下,如何计算 3 日滚动加权平均值?更多详细答案可关注公众号查阅。编写一个 SQL 查询,从。平台将新用户的记录记录到。

2024-06-13 16:45:00 263

原创 【Pytorch】如何把一个计算机视觉项目模块化?(把Notebook中的代码转为Python脚本文件)

在本文中,我们将把一个Pytorch的计算机视觉项目代码转换成一系列完整的Python脚本, 也就是把代码模块化。在文章结尾,我们能够实现下面三个目标:1. 理解模块化的含义以及两种方法;2. 完成一个可以被使用的Python脚本;3. 实现用一行代码训练我们构建的模型 `python train.py`。

2024-06-12 18:15:50 607

原创 【数据分析面试】65.找出第一个大于10的数字(python循环结构)

给定一个数字列表,编写代码找出列表中第一个大于 10 的数字,并打印该数字。如果列表中没有大于 10 的数字,则打印一条消息说明这一点。

2024-06-10 11:30:00 240 1

原创 【数据分析面试】64. 生成杨辉三角(Python)

编写一个Python程序,要求用户输入一个正整数n,并输出一个大小为n的杨辉三角(Pascal’s Triangle)。杨辉三角的性质:每行的第一个和最后一个元素都是1。(k > 0 且 k < n)请输入一个正整数:5。

2024-06-09 12:00:00 218

原创 【数据分析面试】63.计算订单总金额-升级版(SQL复杂计算优化)

假设你在经营一个电子商务平台,需要计算订单的总金额。`orders`表包含了订单的相关信息。编写一个查询,以获取每个订单的总金额,考虑不同商品的单价、数量和应用的优惠券折扣,以及所有订单的平均总金额(以美元为单位)。优惠券分为两种类型:商品折扣优惠券,以及订单总金额满50减10的优惠券。优惠券可以同时适用于多个商品。

2024-06-08 14:15:00 300

原创 【数据分析面试】62.计算订单总金额(SQL数字计算的常见问题)

假设你在经营一个电子商务平台,需要计算订单的总金额。`orders`表包含了订单的相关信息。编写一个查询,以获取每个订单的总金额,考虑商品单价、数量和应用的优惠券折扣,以及所有订单的平均总金额(以美元为单位)。

2024-06-07 10:00:00 571

原创 【数据分析面试】61. XGBOOST VS随机森林 (机器学习算法)

XGBOOST VS随机森林 有什么区别,举例说明它们适合的使用场景

2024-06-06 14:45:00 541

原创 【Pytorch】计算机视觉项目——卷积神经网络TinyVGG模型图像分类(模型预测)

介绍如何测试模型的预测效果——让已训练好模型对一张新的图片进行分类;最后将整个流程打包,写成一个可以被直接调用的函数。

2024-06-06 13:58:04 1149

原创 【Pytorch】计算机视觉项目——卷积神经网络TinyVGG模型图像分类(如何使用自定义数据集)

介绍如何使用自定义数据集训练模型,完成图像分类任务:1. 使用ImageFolder创建;2. 复刻ImageFolder 功能加载自定义数据集

2024-06-05 16:30:25 1258

原创 【数据分析面试】60.计算滑动窗口平均值 (Python & SQL)

给定一个数字列表 `nums` 和一个整数 `window_size`,编写一个函数 `moving_window` 来计算滑动窗口平均值。

2024-06-05 14:00:00 750

原创 【数据分析面试】59.找出共同关注者最多的两个用户(SQL:自连接)

写出一个查询语句,找到具有最多共同关注者的两个用户,并找出他们两人的user_id。结果返回表,每一行应该包含user1_id和 user2_id,其中。表,储存着用户id和他对应的关注者id。

2024-06-04 12:00:00 292

原创 【数据分析面试】58.计算均方根误差 (Python)

通过这种方法,我们可以计算并返回两个列表之间的均方根误差,从而评估预测模型的性能。均方根误差(RMSE)是衡量预测值与实际值之间差异的标准。来计算回归模型的均方根误差。该函数应接收两个列表,一个代表预测值。更多详细答案可关注公众号查阅。

2024-06-03 17:23:56 581

原创 【数据分析面试】57.选择特定数据类型(Python:select_dtypes)

针对给定的Df,根据要求筛选特性类型的数据。

2024-05-30 18:00:00 290

原创 【数据分析面试】56.数据格式转换(Python:melt函数)

给定一个df,包含ABCDE多个列。请编写一个 Python 程序,将列 'D' 和 'E' 转换为长格式,并使用 'A'、'B' 和 'C' 作为标识符。

2024-05-29 17:12:25 392

原创 用户流失分析:如何使用Python训练一个用户流失预测模型?

在当今商业环境中,客户流失分析是至关重要的一环。随着市场竞争的加剧,企业需要更加注重保持现有客户,并深入了解他们的离开原因。本文探讨了用户流失分析的核心概念以及如何构建客户流失预测模型的案例。通过分析用户行为数据和交易模式,以及利用机器学习算法,企业可以更好地预测潜在的流失风险,并采取相应措施提高客户满意度。随着持续性的监控和迭代,企业将能够建立智能化的流失分析体系,为业务发展提供持续支持。

2024-05-29 17:06:41 1807

原创 【数据分析面试】55. 寻找双词组 (Python)

编写一个名为 `find_bigrams` 的函数,该函数接收一个句子或段落的字符串,并按顺序返回其所有双词组的列表。

2024-05-28 17:03:36 238

原创 【数据分析面试】54.员工信息(HR)数据库搭建

由于发展需求,进一步提高公司人员统筹管理的能力,公司决定要重新升级人力数据管理系统。现在,你的任务是为公司重新。

2024-05-27 17:27:29 1025

原创 【数据分析面试】53.推送消息的分布情况(SQL)

我们有两个表,一个是 `notification_deliveries` 表,另一个是包含 `created` 和购买 `conversion dates` 的 `users` 表。如果用户没有购买,那么 `conversion_date` 列为 `NULL`。编写一个查询,以获取用户转换前的推送通知总数的分布情况。

2024-05-25 19:00:00 481

原创 【每日一题】52.20个机器学习问题 2 (模型部署、实践流程和应用问题)

2024-05-24 19:06:23 994

原创 【资料分享】你敢相信这些高大上的BI仪表盘都是用EXCEL做出来的?!

分享几个压箱底的EXCEL可视化看板案例~

2024-05-24 18:57:04 482

原创 50道题目!Python、SQL数据库、AB测试、业务分析、机器学习都在这里了!

每日一题系列已经更新了50道题目啦!题目难度为初级到中级,涵盖了Python、SQL数据库、AB测试、业务分析、机器学习五大主题,适合初学者和有一定基础的朋友。

2024-05-24 11:53:27 802

原创 Parquet使用指南:一个超越CSV、提升数据处理效率的存储格式

在大数据时代,数据存储和处理的效率越来越重要。同时,我们在工作中处理的数据也越来越多,从excel格式到csv格式,从文件文档传输到直接从数据库提取,数据单位也从K到M再到G。当数据量达到了G以上,几G甚至几十G,在使用python时就能察觉到数据处理效率在变慢。在这种情况下有什么更好的解决方法吗?

2024-05-23 17:13:02 4949

原创 【数据分析面试】51. 读取大型csv文件

假设你是一家科技公司的数据分析师。近期由于管理层变动,新的总经理上任,他想要了解公司过往的交易情况数据,并且这个任务由数据分析团队负责完成。历史交易数据下载导出完成后,团队发现Csv文件大小超过了5个G,使用pandas读取时间过长。你有什么好的解决办法吗?

2024-05-23 16:53:36 284

原创 【数据分析面试】50.20个AB测试面试题

20个AB测试面试题

2024-05-21 17:16:24 141

原创 【数据分析面试】49. 计算分公司的总销售额(Python:groupby & merge用法)

你在一家跨国零售公司工作,全球各分公司的销售数据都存储在不同的表格中。当前的数据结构在业务分析中表现低效,管理层需要你提供专业知识来简化数据。编写一个Python程序,创建一个数据表,显示每个分支机构每年的总销售额。

2024-05-20 17:51:22 1011

原创 【数据分析面试】48.如何在SQL中高效地创建和管理数据库表(20个SQL操作问题)

这里的20个问题主要考察如何在SQL中高效地创建和管理数据库表,包括数据库表创建、修改、删除和查询等SQL操作。

2024-05-19 18:07:12 909

原创 【数据分析面试】47.根据权重随机选择键 (Python)

给定一个带有权重的字典,请编写一个函数 `random_key`,该函数根据权重以比例概率随机返回一个键。

2024-05-18 17:12:33 179

原创 【数据分析面试】46. 华尔街情感分析挑战 (ML问答)

华尔街的投资公司聘请你作为机器学习工程师。你的任务是在 Reddit(类似百度贴吧的论坛网站) WallStreetBets 的数据集上开发情感分析模型。在你开发和运行模型之后可能出现的潜在问题有哪些呢?

2024-05-17 19:00:00 409

原创 【机器学习项目】电信行业的客户流失预测模型

在电信行业,顾客可以从各种服务提供商中选择。顾客流失被定义为顾客停止与公司或服务进行业务往来的情况。该项目任务是使用提供的其余数据建立一个预测客户流失的模型。

2024-05-17 10:00:00 672

Convolution and ReLu

Convolution and ReLu 学习代码

2023-08-14

Bigmart Sales Data

Bigmart Sales Data

2022-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除