- 博客(51)
- 收藏
- 关注
原创 自然语言处理中的文本特征工程与循环神经网络模型解析
本文解析 NLP 中文本特征处理与循环神经网络(RNN)模型。文本特征部分,N-Gram 通过组合连续字词生成上下文特征(如 bi-gram),代码演示 n 元组提取;利用 Keras 工具实现文本长度规范,通过截断或补零统一输入维度。模型层面,传统 RNN 捕捉序列依赖,LSTM 以门控机制解决梯度消失,Bi-LSTM 双向计算增强语义捕捉。结合 PyTorch 代码,阐释 RNN 层参数(输入 / 隐藏层维度、层数)及输入输出变化,揭示模型处理变长序列的机制,为 NLP 任务建模提供技术参考。
2025-06-08 01:34:06
448
原创 文本预处理
本文介绍基于 Python 的情感分析形容词词云可视化方法。利用 jieba.posseg 提取文本中词性为 "a" 的形容词,从训练集train.tsv中按正负标签(label=1/0)筛选句子,通过map与chain函数批量处理并合并形容词列表。借助 WordCloud 库设置中文字体、最大词数等参数,生成正负样本词云图,直观展示不同情感倾向的高频形容词分布,为文本情感分析提供可视化支持。
2025-05-29 23:16:27
1017
原创 自然语言处理入门及文本预处理
本文为自然语言处理(NLP)入门学习笔记,重点梳理文本预处理核心技术。首先介绍 NLP 定义、发展历程(从规则与统计方法的竞争,到机器学习、深度学习主导,再到大模型 AIGC 时代)及应用场景(语音识别、机器翻译等)。
2025-05-27 21:45:00
339
原创 深度学习实战:从图像分类到文本生成的完整案例解析
本文系统介绍了深度学习在图像分类和文本生成两大核心任务中的实践应用。在图像分类部分,以CIFAR-10数据集为例,详细解析了卷积神经网络的构建过程,包括卷积层、池化层和全连接层的设计,并提供了数据增强、学习率调整和Dropout等优化策略。文本生成部分则展示了从文本预处理到RNN模型构建的完整流程,重点讲解了词嵌入层的工作原理和循环神经网络处理序列数据的机制。两个案例均包含可运行的PyTorch实现代码,涵盖了数据加载、模型训练、评估预测等关键环节。
2025-05-24 21:12:02
1215
原创 深度学习中的正则化方法与卷积神经网络基础
本文系统介绍了深度学习中的正则化方法和卷积神经网络(CNN)的基础知识。在正则化部分,详细讲解了Dropout和批量归一化(Batch Normalization)两种常用技术,它们能有效防止模型过拟合并提高泛化能力。Dropout通过在训练时随机失活部分神经元来防止对特定神经元的过度依赖;批量归一化则通过对每批数据进行标准化处理,加速模型收敛并引入噪声防止过拟合。在CNN部分,重点阐述了卷积层的核心概念,包括卷积计算、Padding、Stride以及多通道/多卷积核处理,并提供了PyTorch实现示例。此
2025-05-20 22:47:53
1212
原创 PyTorch 中神经网络相关要点(损失函数,学习率)及优化方法总结
本文围绕 PyTorch 展开,介绍了神经网络搭建和参数计算,构建了简单的神经网络类,说明了模型参数的计算查看方式。阐述了多种损失函数,包括分类任务的交叉熵损失、二分类损失,回归任务的 MAE、MSE、Smooth L1 损失。介绍了梯度下降算法、反向传播算法,以及多种梯度下降优化方法如动量算法、AdaGrad、RMSProp、Adam 等。还讨论了学习率衰减优化方法,包括等间隔、指定间隔、指数学习率衰减,给出了不同方法的选择建议,有助于深入理解神经网络优化过程。
2025-05-14 20:07:58
1317
原创 PyTorch 线性回归模型构建与神经网络基础要点解析
摘要:本文聚焦 PyTorch 框架,系统阐述线性回归模型构建与神经网络核心知识。先通过make_regression创建数据集,利用TensorDataset和DataLoader处理数据,借助nn.Linear等模块完成模型训练与可视化。同时深入讲解人工神经网络结构,剖析 sigmoid、tanh、relu、softmax 等激活函数特性及适用场景,并介绍随机初始化、kaiming 初始化等多种参数初始化方法及其选择策略,为深度学习入门提供全面且实用的知识储备与实践指导。
2025-05-10 19:45:00
878
原创 PyTorch 张量与自动微分操作
本文系统梳理 PyTorch 核心操作。在张量操作层面,详细介绍索引取值、形状调整、维度变换、拼接堆叠等方法,包括 reshape、squeeze、transpose 等函数的使用要点;自动微分模块部分,阐述梯度计算原理与梯度下降法实现流程,强调自动微分张量转换的注意事项,并通过实例展示如何利用自动微分完成模型训练,包括样本构建、模型参数初始化、损失计算与梯度更新等关键步骤,为 PyTorch 实践应用提供参考。
2025-05-05 19:43:34
545
原创 深度学习与 PyTorch 基础
本文为深度学习与 PyTorch 框架的学习笔记,先介绍深度学习的核心概念、特点、常见模型及应用场景,涵盖自然语言处理、计算机视觉和推荐系统等领域。随后聚焦 PyTorch 框架,详细讲解张量这一核心数据结构,包括张量的定义、多种创建方式(基本创建、线性与随机张量、特殊值张量等),以及张量与 NumPy 数组的相互转换。同时深入探讨张量的数值计算和运算函数,涉及基本运算、点乘、矩阵乘法等,以及均值、求和、最值等常用运算函数,为深度学习实践打下坚实基础。
2025-05-02 21:03:04
1304
原创 数据挖掘案例-电力负荷预测
文章围绕时间序列预测及电力负荷预测展开。先是介绍时间序列预测的概念、应用场景、任务分类及算法选择,包括统计学、机器学习和深度学习算法。接着阐述电力负荷预测的业务背景、需求分析与实现方法。然后通过搭建模型架构,开发日志、工具等模块,进行模型训练与预测,还对结果进行评价。最后从特征工程、算法、预测速度和扩展性等角度提出改进方向,以提升电力负荷预测的准确性和实用性。
2025-04-16 22:02:31
1022
原创 聚类算法和Kmeans算法
这篇文章围绕聚类算法展开,介绍了聚类算法的基本概念、应用场景和分类,包含划分、层次、密度、谱聚类等。以 K-means 为例,阐述其 API 使用、算法流程,通过随机数据集演示聚类过程。介绍了 SSE、SC、CH 等评价指标及肘部法确定最佳 K 值。在客户分析案例中,利用 K-means 对客户数据聚类,找出黄金客户群。还指出 K-means 应用时需注意异常数据和样本量过大问题,引出 MiniBatchKMeans 算法,其在海量数据处理上效率高且准确性损失小。
2025-04-15 23:09:39
792
原创 集成学习+泰坦尼克号案例+红酒品质预测
本文围绕集成学习展开全面介绍。先阐述集成学习是通过组合多个弱学习器形成精度更高模型,分类为 bagging 和 boosting。接着介绍随机森林基于 bagging,以决策树为基学习器,通过有放回抽样和随机选特征构建。Adaboost 基于 boosting,动态调整样本权重训练强分类器。GBDT 是提升树的改进,利用损失函数负梯度近似残差。XGBoost 是 GBDT 的改进,用泰勒二阶展开、加正则化项,自创分裂指标。最后通过多个案例实践展示各算法应用及性能评估。
2025-04-10 22:45:00
648
原创 决策树+泰坦尼克号生存案例
这篇文章围绕决策树展开了全面介绍。首先阐述决策树基本思想与构建步骤,通过生活例子展示其分类决策过程。接着分别讲解 ID3、C4.5、CART 三种决策树,涉及信息熵、信息增益、信息增益率、基尼指数等概念及计算。还介绍了决策树在泰坦尼克号生存案例中的应用及相关 API。回归决策树部分介绍构建原理并实践对比。最后说明决策树剪枝的概念、作用、方法(预剪枝和后剪枝),并对比优缺点,以助于理解和应用决策树算法。
2025-04-09 18:30:00
1838
原创 逻辑回归+癌症分类案例+电信客户流失预测案例
本文围绕逻辑回归展开全面且深入的介绍。先是阐述其应用场景为解决二分类问题,复习 sigmoid 函数、概率、极大似然估计等数学知识。接着剖析原理,通过线性模型结合 sigmoid 函数输出概率值实现分类,并介绍损失函数。在 API 方面,介绍 sklearn 库中逻辑回归 API 及参数含义,还通过癌症分类案例演示实践过程。分类评估上,详解混淆矩阵、精确率、召回率、F1-score 等指标及计算方法,介绍 ROC 曲线和 AUC 指标。最后是电信客户流失预测案例展示处理流程及代码实现。
2025-03-31 23:13:04
871
原创 线性回归算法+波士顿房价预测案例+正则化案例
文章围绕线性回归展开介绍。开篇借身高体重预测引出概念,说明其用回归方程建模原理,介绍一元、多元回归差异与应用场景。接着阐述求解方法,如 API 使用、损失函数、数学知识,以及正规方程法和梯度下降算法。随后介绍回归评估方法及特点,并以波士顿房价预测为例实操演示。最后讲解过拟合、欠拟合概念、成因、解决办法,以及正则化(L1、L2)原理与案例 。
2025-03-30 01:23:28
1100
原创 KNN算法+鸢尾花分类+手写数字识别案例
本文围绕 KNN 算法展开,介绍其基本思想为依据样本在特征空间中 k 个最相似样本的类别来推断自身类别,通过样本距离衡量相似性。阐述 K 值选择对结果的影响,详细说明分类和回归的处理流程。介绍了 KNN 算法的 API,包括分类和回归 API。讲解距离度量方法,如欧氏、曼哈顿等距离计算方式。强调特征预处理的必要性,给出归一化和标准化的方法及 API。此外,还介绍了超参数选择方法,包括交叉验证和网格搜索,最后通过鸢尾花分类和手写数字识别案例展示算法应用。
2025-03-25 19:00:00
1649
原创 机器学习概述
文章聚焦机器学习,开篇阐释人工智能、机器学习、深度学习的概念与关联,点明机器学习在实现人工智能中的关键地位。接着介绍应用领域与发展史,强调数据、算法、算力的重要性。对样本、特征等术语及数据集划分方法予以讲解,详细剖析有监督、无监督等算法分类特点,还阐述了建模流程、特征工程与模型拟合问题,文末推荐了基于 Python 的 scikit - learn 库用于开发。
2025-03-22 00:46:26
977
原创 RFM案例(简要版)
文章聚焦会员价值度模型,详细介绍了常用的 RFM 模型。RFM 模型基于最近一次购买时间 R、购买频率 F、购买金额 M 三个维度评估客户订单活跃价值,用于客户分群与价值区分。文中阐述其实现过程,包括设置截止时间节点、获取和预处理原始数据集、对 R、F、M 分区及计算得分,最终导出结果。同时,通过 Python 代码实现 RFM 模型,涵盖数据导入、缺失值处理、得分计算等步骤,并给出柱形图可视化示例,助力企业精准洞察会员价值,为营销策略制定提供有力支撑。
2025-03-21 23:58:50
994
原创 RFM会员价值度模型案例
本文围绕 RFM 模型展开,介绍其作为评估用户价值、区分会员价值的重要模型,通过最近一次购买时间、购买频率和购买金额计算得分并进行客户分群。文中以某企业 4 年订单数据为例,运用 Python 结合 time、numpy、pandas 等库实现 RFM 模型计算,通过数据清洗、分组聚合、确定区间等步骤得出 RFM 得分,并利用 Pyecharts 绘制 3D 柱形图展示结果,分析不同群体特征,为业务运营提供针对性策略,同时阐述了模型应用及注意事项。
2025-03-21 23:51:05
1078
原创 Matplotlib
本文围绕 Matplotlib 展开,介绍其为开发 2D(含 3D)图表的工具,能以交互式实现数据可视化。通过绘制折线图展示其绘图流程,包括创建画布、绘制图像、显示图像。以天气温度变化为例,阐述添加辅助功能、解决中文显示问题、保存图片等操作。还讲解在同一坐标系绘制多图、多个坐标系显示等技巧,介绍折线图应用场景。此外,列举常见图形如折线图、柱形图、直方图、饼图、散点图的特点、API 及绘制代码,助力读者快速入门 Matplotlib 并掌握基础绘图功能。
2025-03-21 23:25:20
1532
原创 Pandas数据分析
本文围绕 Python 的 Pandas 数据分析展开,介绍了其作为流行结构化数据工具集在数据清洗、处理及分析中的显著优势,阐述了安装方法并通过实际案例展示初体验。详细讲解 Pandas 数据结构(如 Series 和 DataFrame)、数据类型、基本数据操作、运算、文件读取与存储,以及 DataFrame 数据的增删改查、缺失值处理、数据合并、分组和交叉表与透视表等高级处理。为读者全面呈现 Pandas 在数据分析领域的应用,助力掌握相关技能用于实际工作与学习 。
2025-03-20 23:23:56
962
原创 Numpy
本文围绕 Python 科学计算库 Numpy 展开介绍。Numpy 用于快速处理任意维度数组,使用 ndarray 对象处理多维数组,在运算速度上相比 Python 原生 list 优势显著,原因在于其内存块风格、支持并行化运算且底层用 C 语言编写。ndarray 具有形状、类型等属性,生成方式多样,包括生成 0 和 1 的数组、从现有数组生成、生成固定范围及随机数组。此外,还涵盖数组的索引、切片、形状修改、类型修改、去重等基本操作,以及逻辑运算、通用判断函数、统计运算等内容,同时介绍了数组间运算的广播
2025-03-20 20:00:00
904
原创 单表查询和多表查询
本文围绕数据库多表查询中的自关联查询展开,指出表自身关联查询即自关联。介绍其写法多样,可采用交叉查询、内连接、外连接等。以行政区域表记录省市区信息为例,说明复杂做法是用三张表分别记录,简单做法是用一张表存储,借助自关联查询实现。文中展示了多个自关联查询的示例,如查看区域表信息、查询特定省份及其下辖市区、县区信息,还能根据身份证号前 6 位查询家乡所在地,直观呈现自关联查询在实际场景中的应用。
2025-03-19 20:15:00
934
原创 窗口函数与Python数分入门
文章内容有:* Python数据分析的优势* Python数据分析环境搭建* Jupyter Lab 和 Jupyter Notebook初体验* 配置PyCharm连接Jupyter* Numpy详解 * 属性 * 创建 * 内置函数 * 运算
2025-03-19 20:02:13
1034
原创 MySQL入门
本文聚焦 MySQL 数据库相关知识,涵盖环境搭建、MySQL 的登陆登出及 DataGrip 连接与设置。重点介绍 SQL 语句,详细阐述 DDL 语句对数据库、数据表、字段的操作,如创建、删除、修改数据库和表结构等;DML 语句对表数据的增、删、改操作;还涉及单表约束入门知识,包括主键、非空、唯一、默认约束的使用。此外,通过实例演示各语句及约束的功能与应用场景,为读者提供全面且实用的数据库操作指引。
2025-03-19 19:45:00
963
原创 Linux命令进阶
这篇文章围绕 Linux 系统基础操作展开,涵盖用户与用户组管理,如创建、删除用户和用户组,添加用户到组等。介绍权限设置,包括修改用户权限、用户和用户组归属的命令。提及常用快捷键,如强制停止、退出、查看历史命令等。阐述安装软件的三种方式及服务控制命令。详细说明软连接和硬链接、网络相关操作,如查看和修改 IP、主机名,配置域名解析,测试网络连接等。还涉及查看端口号、进程管理、环境变量、文件上传下载及压缩解压缩,最后引出扩展的 Shell 编程。
2025-03-19 19:00:00
583
原创 Linux基础命令
文章聚焦 Linux 基础操作,详细介绍多个关键知识点。先是阐述 Linux 快照功能,包括拍摄、恢复及删除等操作,强调关机拍摄和控制数量的细节。接着对比 Linux 与 Windows 目录结构,点明 Linux 以根目录 “/” 替代盘符。随后对常见基础命令展开说明,如 ls 查看目录内容、cd 切换路径、mkdir 创建目录等,涵盖命令格式、选项含义及使用示例。还介绍了 vi 编辑器用法、命令帮助手册查看方式以及用户管理基础流程,助力读者快速掌握 Linux 基础操作。
2025-03-18 23:17:42
1044
原创 Python简单爬虫实践案例
文章围绕 Python 简单爬虫实践展开,先介绍基于 FastAPI 搭建 Web 服务器及与浏览器通讯流程,解决服务器代码重复问题。接着引入爬虫概念,讲解用 requests 模块爬取照片和 GDP 数据的步骤。随后阐述多任务爬虫提升效率,以及用 pyecharts 实现数据可视化,制作 GDP 排名饼图。最后介绍 logging 日志模块,涵盖日志等级、输出方式及在 Web 项目中的应用。通过这些内容,为读者提供了 Python 爬虫从搭建基础到多方面实践应用的全面指导。
2025-03-18 19:15:00
1693
原创 Python高级语法与正则表达式
正则表达式通过Python的re模块,在文件操作、数据提取和验证中展现出强大能力。结合with语句,它能安全地从文本中提取关键信息。生成器如finditer在处理大量数据时节省内存,逐个返回匹配结果。深拷贝与浅拷贝确保复杂数据结构的独立性。高级技巧如分组捕获和选择匹配符提升了匹配的灵活性和准确性。这些方法让开发者能高效应对各种字符串处理任务,在数据清洗、网页抓取等领域中不可或缺。
2025-03-18 14:34:58
1003
原创 Python进程和线程
Python实现多任务主要依赖多进程和多线程。进程通过multiprocessing模块创建,能并行执行任务但资源开销大且不共享全局变量。线程使用threading模块,共享全局变量且资源开销小,但不能充分利用多核。创建进程或线程需指定目标函数和参数,通过start()启动。线程执行顺序由CPU调度决定。使用时需注意主进程/线程与子进程/线程的结束顺序,可设置守护进程/线程或显式销毁来管理。线程间共享变量可能引发数据竞争,需同步以确保数据一致性。选择多进程或多线程应基于具体需求。
2025-03-17 21:30:00
1287
原创 HTTP协议与静态Web服务器开发
HTTP协议是浏览器与Web服务器通信的基石,规定了数据传输格式。请求报文分GET和POST,分别用于获取和提交数据;响应报文包含状态行、响应头和响应体,状态码如200表示成功。Python自带的静态Web服务器通过python -m http.server命令搭建,提供静态文档服务。开发自定义Web服务器需结合TCP服务器和HTTP协议,解析请求、读取文件并组装响应报文。FastAPI作为现代高性能Python Web框架,基于类型提示,支持快速开发和减少Bug。
2025-03-16 22:55:47
743
原创 计算机网络及TCP网络应用程序开发
本文深入探讨了计算机网络及TCP网络应用程序开发的核心概念与实践。首先,我们介绍了网络的定义和学习网络编程的重要性,并详细解释了IP地址、端口和端口号的概念。接着,我们引入了socket套接字工具,它是实现网络通信的关键。然后,我们重点讨论了TCP协议,包括其特点和工作原理。在Python3编码转换部分,我们学习了如何将字符串转换为二进制数据以进行网络传输。最后,我们详细阐述了TCP客户端和服务器端的开发流程,并提供了实际的代码示例,包括面向对象版本和多客户端支持。此外,我们还强调了TCP网络应用程序开发中
2025-03-15 23:05:33
922
原创 HTML+CSS基础(了解水平)
HTML(HyperText Mark-up Language)是一种用于创建网页的标记语言,由标签组成,定义网页结构和内容。CSS(Cascading Style Sheet)用于美化网页和控制布局。HTML文档通常包含文档声明、HTML标签、头部标签和主体标签。CSS可通过行内式、内嵌式或外链式引入。CSS选择器如标签选择器、类选择器、层级选择器等用于选择HTML元素并应用样式。常见CSS属性包括布局属性(如width、height、background、border)和文本属性(如color、font
2025-03-15 22:34:31
1141
原创 Python闭包装饰器
Python闭包,装饰器,PyMySQL介绍。涵盖闭包的作用域,变量作用域范围,全局变量与局部变量,闭包的构成条件,注意事项,装饰器的雏形,定义,作用,通用版本装饰器,PyMySQL的使用步骤等内容
2025-03-14 13:00:58
646
原创 Python面向对象高级与学生管理系统案例(面向对象版)
介绍了Python继承,多态,类属性,类方法,静态方法,面向对象相关案例,学生管理系统(面向对象版本)等内容
2025-03-13 22:44:44
1122
原创 Day07之Python函数进阶
Python基础:涉及字符串切片、字典定义等一些问题,以及引用变量和可变、非可变类型的解释、函数递归、lambda表达式
2025-02-05 11:01:23
1362
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人