自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 收藏
  • 关注

原创 【Excel】Excel的工作场景

自Excel 2019版本起,微软将更新周期稳定在每3年一次,而3年的周期刚好平衡了创新与稳定:既能紧跟大数据时代下用户对自动化、智能化处理的需求(比如近年数据量激增带来的批量处理需求),又能给用户留出足够的时间消化旧功能、适应新变化。

2025-08-27 20:45:00 525 1

原创 EP05:【DA】数据分析的正确使用与未来发展

数据分析解决问题的核心流程包括确认问题、拆解问题、量化分析、数据处理和可视化呈现。文章系统性地介绍了数据分析的知识框架搭建方法,强调以解决问题为导向,通过理解、检查、学习、归纳和重构五步法则建立完整的分析思维体系。同时指出数据分析在职场中的定位是业务辅助工具,其价值体现在可理解、可直观、可执行三个方面。最后分析了数据分析能力的职业发展路径,指出该能力能为从业者带来跨部门协作、高层决策接触等独特优势,具有广阔的职业发展空间。

2025-08-27 10:18:34 667

原创 EP04:【DA】数据的可视化与表达

数据可视化是通过图形(如柱状图、折线图)将抽象数据转化为直观视觉信息的过程,旨在降低认知门槛。数据表达是其核心应用,通过图表传递信息、论证观点,推动决策。关键原则包括客观性、直观性和高效性。表达时应结构化呈现(观点+数据+图表),并遵循三步流程:提炼精准观点、制作匹配图表、突出关键数据。基础图表(柱状图、折线图等)可覆盖90%场景,需根据数据特点选择。优质数据表达能统一认知标准,挖掘深层信息,是职场影响力的重要体现。

2025-08-25 11:32:27 910 1

原创 EP03:【DA】数据分析的主流方法与分析框架

数据分析方法论摘要 数据分析基于五大核心理论:大数定律(样本量决定准确性)、罗卡定律(行为必留痕迹)、幸存者偏差(样本代表性)、辛普森悖论(分组与合并结论矛盾)、帕累托最优(资源优化分配)。通过MECE法则(独立穷尽)和四大分析方法(时间流程、模型框架、量化公式、穷尽要素)将业务问题转化为可量化指标。分析框架能系统拆解问题,避免遗漏关键因素,最终实现从数据洞察到业务决策的闭环。

2025-08-25 11:31:17 1075

原创 EP02:【DA】数据分析的价值创造与应用流程

数据分析是企业运营的关键导航仪,其价值体现在四个维度:基础认知(呈现业务现状)、异常分析(探究问题成因)、方案制定(优化业务决策)和参数优化(提升执行效率)。核心流程包括明确问题、数据拆解、量化分析、图表呈现和结论输出,形成"数据驱动决策"闭环。高级分析师需具备主动发现问题、精准定义问题、科学验证方案的能力,并通过AB测试等实证方法确保策略落地。数据分析不仅是技术活,更需要业务理解与人际协作,最终实现数据与业务的无缝对接,成为企业发展的战略支撑。

2025-08-24 15:11:21 959 3

原创 EP01:【DA】数据分析的概述

本文系统阐述了数据和数据分析的本质与应用。数据起源于远古结绳记事,其核心优势在于可重复使用、客观量化及计算机处理能力。数据分析是通过量化信息提升生产力的方法,广泛应用于学习、商业、健康等领域。企业数据分析分为三个阶段:初创期简单记录、成长期面临数据混乱挑战、成熟期形成完整团队协作体系。未来趋势显示,基础数据处理门槛降低,而数据决策能力将成为管理者的必备技能。

2025-08-24 15:09:12 605 2

原创 DAY01:【DL 第一弹】深度学习的概述

深度学习的核心定义是,其本质是通过模拟人类大脑神经元的连接方式,让系统从数据中自主学习规律,无需人工显式编程。这一定义既明确了其技术基础是深度神经网络,又点出了其自主学习、摆脱人工编程限制的关键特性,为理解深度学习的本质提供了核心框架。

2025-08-22 16:17:06 782

原创 EP06:【DL 第二弹】动态计算图与梯度下降入门

PyTorch的AutoGrad模块通过动态计算图和回溯机制实现自动微分。核心概念包括:1)可微分性,通过requires_grad标记需要计算梯度的张量,grad_fn记录运算关系;2)动态计算图,由节点(张量)和边(运算)组成,实时构建计算流程;3)反向传播,通过backward()方法从输出节点反向计算梯度,受起点选择和计算图保存影响。PyTorch的动态计算图特性使其更具灵活性,适合快速原型开发。

2025-08-09 18:26:01 879 4

原创 EP05:【DL 第二弹】基本优化思想与最小二乘法

本文介绍了简单线性回归的机器学习建模思路。通过一元线性方程描述自变量与因变量关系,以误差平方和(SSE)作为损失函数衡量拟合效果。由于SSE是凸函数,可通过求偏导数为0的点找到最优参数解。文中以两个数据点为例,详细推导了求解过程,并用Python验证了当斜率和截距均为1时SSE取得最小值。线性回归模型简单直观,是机器学习的基础模型,其优化思想为复杂模型提供了理论基础。

2025-08-08 00:26:28 739 2

原创 EP04:【DL 第二弹】张量的线性代数运算

本文介绍了BLAS和LAPACK作为现代科学计算的核心基础设施,重点阐述了矩阵的基本操作与运算。首先概述了BLAS的三级运算体系和LAPACK的高级功能,它们在深度学习框架中的关键支撑作用。接着详细讲解了矩阵形变(转置)和特殊矩阵构造(单位矩阵、对角矩阵、三角矩阵)的原理与应用场景,通过PyTorch代码示例展示了具体实现方法。最后介绍了矩阵基本运算(点积、矩阵乘法等)及其工程意义,强调这些运算是构建复杂模型的基础模块。全文突出了线性代数运算在实际问题中的高效实现和广泛用途。

2025-08-07 05:10:12 1125 3

原创 EP03:【DL 第二弹】张量的广播和科学运算

本文系统介绍了PyTorch框架中的张量运算机制。首先阐述了算子概念,指出PyTorch将所有张量运算统一抽象为算子,便于标准化管理和性能优化。文章详细分类了六种主要算子类型及其应用场景,包括逐点运算、规约运算等。重点解析了张量的广播特性,通过实例展示了相同形状张量运算的机制,以及不同形状张量(标量+张量、同维度不同形状张量等)的计算规则。特别强调了广播的核心条件:维度大小相等或其中一个为1,并配以二维和三维张量的运算示例说明广播过程。这些内容为深入理解PyTorch张量运算提供了系统指导。

2025-08-06 02:32:05 810 3

原创 EP02:【DL 第二弹】张量的索引、分片、合并以及维度调整

本文介绍了PyTorch张量的索引和视图操作。主要内容包括: 张量索引:从一维到三维张量的索引规则,使用[start:end:step]格式进行切片,高维张量通过逗号分隔不同维度的索引。 函数索引:使用torch.index_select()实现非连续索引,通过索引张量指定要选取的位置。 视图操作:view()方法在不复制数据的情况下改变张量形状,生成与原张量共享内存的新视图,修改视图会同步影响原张量。 这些操作都是PyTorch处理张量数据的基础方法,对神经网络中的数据预处理和特征提取至关重要。

2025-08-05 19:35:02 1132 4

原创 EP01:【DL 第二弹】张量(Tensor)的创建和常用方法

PyTorch张量基础与应用摘要 PyTorch张量是深度学习中的核心数据结构,支持多维数据的高效存储与运算。本文介绍了张量的创建方式(列表、元组、NumPy数组转换)、数据类型体系(浮点/整数/布尔/复数等)及类型转换方法(隐式/显式)。同时讲解了张量的维度概念与形变操作,包括一维向量、二维矩阵的创建及属性查看(ndim、shape、size等)。这些基础操作为后续深度学习模型的数据处理奠定了基础,实现了与NumPy的无缝衔接,并支持灵活的数据类型控制以满足不同计算需求。

2025-08-05 16:06:56 1066 5

原创 EP05:【Python】标准库模块和包

本文介绍了Python标准库模块的常用功能和示例,包括sys、os、random、datetime、json、math和re模块。sys模块用于与解释器交互,处理命令行参数;os模块提供文件/目录操作;random模块生成随机数;datetime处理日期时间;json实现数据序列化;math提供数学运算;re模块支持正则表达式操作。每个模块都通过典型代码示例展示了核心功能和使用方法,为Python开发提供基础工具支持。

2025-07-20 11:49:51 686 1

原创 EP04:【Python】函数编程

1) 函数的基本定义语法和特点;2) 形参与实参的区别,以及默认参数、关键参数、可变参数(*args/**kwargs)的使用方法;3) 全局变量与局部变量的作用域规则;4) 常用内置数学函数(abs, divmod, pow, round)和类型转换函数(int, float, str)的用法。通过代码示例展示了如何创建和调用函数,处理不同参数类型,以及变量作用域的管理技巧,为Python函数编程提供了实用指南。

2025-07-20 09:39:04 799 1

原创 EP03:【Python】逻辑语句

本文介绍了Python程序设计的三种基本结构。顺序结构按照代码书写顺序执行,适用于简单计算和数据处理。分支结构包括双分支和多分支语句,通过条件判断控制程序流程。循环结构包含while和for循环,用于重复执行代码块,并介绍了break和continue控制循环流程。每种结构都配有实例代码演示其应用场景,如计算圆面积、成绩判断和验证码生成等,帮助读者理解程序控制流的基本原理和实现方法。

2025-07-20 06:00:11 336

原创 EP02:【Python】复杂数据类型

本文介绍了Python中两种重要的数据结构:列表和字典。在列表类型部分,详细对比了NumPy的ndarray和Python内置列表的特性与用法,包括ndarray的高效数值计算能力和列表的灵活性。字典部分则讲解了其键值对结构、创建方法以及常见操作如访问、修改和添加元素。通过代码示例直观展示了各种数据结构的创建和操作方法,帮助读者理解它们的核心差异和应用场景。

2025-07-20 05:09:32 813

原创 EP01:【Python】基础入门知识

本文介绍了Python编程的基础入门知识和基本数据类型。第一部分涵盖代码规范(包括语句分隔符、格式化快捷键、注释方式)、变量定义及命名规则。第二部分详细讲解数字类型(整型/浮点型)、布尔类型(True/False)及其逻辑运算,以及字符串类型(单/双/三引号表示法),包括转义符、格式化输出、序列操作和常用字符串方法。文章通过示例代码演示了圆形周长面积计算、逻辑运算等实操案例,并提供了PEP 8官方文档参考。各类数据类型均附有定义说明、应用场景和典型操作方法,适合Python初学者系统学习基础语法和编程规范。

2025-07-19 23:05:35 570

原创 EP02:【NLP 第二弹】自然语言处理数据

序列数据是深度学习的核心数据类型,其样本顺序不可随意更改,包括文本、时间序列、音频、视频等。文本数据依赖语义顺序,分词后形成最小语义单元Token;时间序列数据则强调时间步顺序。文本编码方式多样,如One-hot、词嵌入(Word2Vec、GloVe等)及大语言模型编码,而时间序列分为二维(单序列)和三维(多序列)结构。两者均需保持原始顺序以确保数据含义,算法设计需据此适配。

2025-07-16 20:50:45 815

原创 EP01:【NLP 第二弹】自然语言处理概述

本文系统梳理了自然语言处理(NLP)技术的发展历程与行业影响。内容分为三个核心部分:首先阐述了NLP作为实现人工智能认知智能的关键路径,包括图灵测试、智能层次划分等理论基础;其次重点分析了2011年至今NLP的三阶段发展,特别是Transformer架构和大模型时代的技术突破;最后探讨了以GPT为代表的大模型带来的行业变革,指出从业者面临的机遇与挑战。

2025-07-16 19:50:17 1209

原创 DAY02:【ML 第一弹】KNN算法

本文介绍了K近邻算法(KNN)的基本原理与应用。KNN通过计算样本间的距离进行分类或回归预测,常用的距离度量包括欧氏距离、曼哈顿距离和切比雪夫距离。文章详细阐述了K值选择对模型的影响,以及算法在分类和回归问题中的具体应用方式。同时提供了scikit-learn中KNeighborsClassifier和KNeighborsRegressor的API参数说明和使用示例,包括距离度量参数设置、预测方法等。通过代码实操展示了KNN模型从训练到预测的完整流程,为机器学习实践提供了实用指导。

2025-07-13 21:42:39 1017 4

原创 DAY01:【ML 第一弹】机器学习概述

本文系统介绍了机器学习与人工智能的核心概念。主要内容包括:1)AI、机器学习和深度学习的定义与关系;2)AI的发展历程、应用领域和计算基础(CPU/GPU/TPU);3)机器学习术语(样本/特征/标签等)和算法分类(监督/无监督/半监督/强化学习);4)建模流程(数据获取、特征工程、模型训练与评估);5)特征工程的关键环节(提取、预处理、降维等);6)模型拟合问题(欠拟合/过拟合)及解决原则。文章从基础概念到实践应用,全面阐述了机器学习的知识体系。

2025-07-13 09:45:16 874 9

原创 ML之基本概念和建模流程

注意:数据集中的列也被称为字段,鸢尾花数据集中总共有5列,也就总共有5个字段。

2025-06-02 22:14:15 1005 2

原创 ML之高等数学

f′(x0)=lim⁡Δx→0f(x0+Δx)−f(x0)Δxf'(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} \quadf′(x0​)=Δx→0lim​Δxf(x0​+Δx)−f(x0​)​或f′(x0)=lim⁡x→x0f(x)−f(x0)x−x0f'(x_0) = \lim_{x \to x_0} \frac{f(x) - f(x_0)}{x - x_0} \quadf′(x0​)=x→x

2025-05-24 19:27:25 539 8

原创 Python之Numpy

Numpy 补充了 Python 语言所欠缺的数值计算能力。

2025-04-25 05:06:22 1012 6

原创 DL之nn网络层

功能:对多个二维信号进行二维卷积:输入通道数:输出通道数,等价于卷积核个数:卷积核尺寸stride:步长padding:填充个数dilation:空洞卷积大小groups:分组卷积设置,默认为1,即不分组bias:是否使用偏置Hout⌊Hin2×padding0−dilation0×kernelsize0−1−1stride01⌋Hout​⌊stride0。

2025-04-16 17:04:26 1269 4

原创 DL之模型容器

2021年 AlextNet 以高出第二名10多个百分点的准确率获得 ImageNet 分类任务冠军,开创了卷积神经网络的新时代。

2025-04-16 09:39:34 495 3

原创 DL之模型构建

在机器学习的训练流程中,模型构建是核心环节之一。从传统机器学习的线性模型到深度学习的神经网络,模型的复杂度呈指数级增长。PyTorch 作为主流深度学习框架,通过nn.Module类提供了统一的模型构建接口,使得复杂网络结构的定义与管理变得高效且规范。

2025-04-12 18:01:46 1079 6

原创 DL之图像增强

仅接受一个参数,返回一个参数注意上下游的输出和输入# 通过继承类,实现多参数传入 # class YourTransform(object): # def __init__(self, ...): # ... # def __call__(self, img): # ... # return img概念:椒盐噪声,又称脉冲噪声,是一种随机出现的白点或者黑点,白点称为盐噪声,黑点称为椒噪声。产生原因:椒盐噪声的产生是由于光照不均匀导致的。

2025-04-10 21:20:15 1482 2

原创 DL之图像预处理

功能:逐 channel 的对图像进行标准化。功能:计算视觉工具包。

2025-04-10 19:37:35 507 1

原创 DL之数据读取机制

Dataloader。

2025-04-10 19:22:01 339 1

原创 DL之自动求导系统

【代码】DAY03:【pytorch】自动求导系统。

2025-04-10 18:55:43 841 1

原创 DL之计算图与动态图机制

在深度学习框架中,计算图是理解自动求导和模型优化的核心概念。无论是PyTorch的动态图机制,还是TensorFlow早期的静态图模式,计算图都扮演着关键角色。本文将深入解析计算图的基本原理,并结合PyTorch代码演示动态图的运行机制,帮助读者建立从理论到实践的完整认知。

2025-04-10 18:37:49 863 1

原创 DL之张量

本文介绍了PyTorch中的核心数据结构张量(Tensor)。张量整合了原Variable的自动求导功能,包含数据类型(dtype)、形状(shape)和设备(device)等属性。张量创建方法分为两类:(1)直接创建:包括torch.tensor()从数据直接创建,以及torch.from_numpy()与numpy数组共享内存;(2)依数值创建:如zeros()/ones()创建全0/1张量,arange()创建等差数列,linspace()创建均分数组等。每种

2025-04-10 17:55:00 1040 5

原创 ML之模型拟合

欠拟合是机器学习和统计建模中的一种常见问题,表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据,模型的预测误差都居高不下。在实际应用中,欠拟合的模型往往显得过于简单和粗糙,无法对数据进行有效的拟合和描述。

2025-03-19 17:14:26 932 6

原创 ML之特征工程

特征提取是从原始数据中提取出具有和的特征的过程,目的是将原始数据转化为适合机器学习模型输入的形式。在不同的数据类型和应用场景中,特征提取的方法也有所不同。

2025-03-19 16:52:18 871 3

原创 ML之建模流程

是机器学习建模的第一步,常见的数据来源包括数据库、API、网络爬虫等。

2025-03-19 10:40:40 1694

原创 ML之算法分类

处理无标签数据,发现数据模式。无监督学习不依赖于带标签的数据,而是直接对无标签的数据进行分析,挖掘数据中的隐藏结构和模式。这种方式在数据标注成本高、数据量大且难以获取标签的情况下非常有用。结合少量标签数据和大量无标签数据。半监督学习介于有监督学习和无监督学习之间,它同时利用了少量的带标签数据和大量的无标签数据来进行模型训练。这种方式在实际应用中非常实用,因为在许多情况下获取大量带标签数据的成本较高,而无标签数据则相对容易获得。通过试错学习最大化奖励。

2025-03-19 10:20:28 1375

原创 ML之关键术语

数据的属性预测目标。

2025-03-19 10:02:30 740

原创 ML之发展历程

符号主义时代是机器学习发展的早期阶段,专家系统在这一时期占据主导地位。这些早期的尝试为后续的机器学习研究提供了重要的理论和实践基础。

2025-03-19 09:34:41 543

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除