自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 中文文本分类实战!MindSpore全流程解析~

本文详细介绍了基于MindSpore框架的中文文本分类模型构建全流程。针对中文特性,重点解决分词、停用词过滤和文本标准化问题,使用jieba进行精确分词并构建词汇表。模型采用轻量级架构(词嵌入+池化+全连接),通过交叉熵损失和Adam优化器进行训练。完整流程涵盖数据预处理、模型构建、训练评估及预测部署,特别适合中文NLP初学者。该方案能有效处理中文文本分类任务,对明显情感倾向的识别准确率较高。

2025-10-23 22:18:04 515

原创 编程新手必看:小小编程可笑可笑

本文为编程新手提供从问题到工具选择的实用指南。首先强调明确问题类型(数据处理、可视化、逻辑实现、机器学习等)是关键,再匹配对应工具:Pandas处理表格数据、Matplotlib/Seaborn可视化、基础语法实现简单逻辑、Scikit-learn处理机器学习任务。建议通过查阅官方文档+模仿示例代码的方式快速上手,避免"用大炮打蚊子"等常见错误。强调"先抄后改"的学习策略,推荐从简单小项目入手实践,逐步掌握"问题→工具→代码"的解决路径。记住编程工

2025-10-22 19:12:41 643

原创 NLP数据预处理:从清洗到分词的细节指南

自然语言处理(NLP)数据预处理是将原始文本转换为模型可理解格式的关键步骤,主要包括:数据收集(获取相关文本)、数据清洗(去除噪音和冗余)、文本规范化(统一格式)、分词(拆分语义单位)、去除停用词(过滤无关词汇)、词干提取/词形还原(合并词根变体)以及特征工程(转换为数值向量)。这些步骤通过逐步清理和转换文本数据,减少干扰信息,使模型能够更有效地学习核心语义,类似于烹饪前的食材准备过程。预处理质量直接影响最终模型的性能表现。

2025-10-22 18:50:28 898

原创 RNN揭秘:让机器拥有记忆的魔法

机器只靠代码是无法自主记忆甚至是理解数据之间的连续性,而RNN这一循环算法,让计算机有了人体大脑的初步功能:瞬时记忆能力。循环神经网络(RNN):是一种专门处理序列数据的神经网络核心思想:是通过循环连接让网络具有短期记忆能力,利用前文数据来理解当前数据以及后面的数据。易理解:看电影的你,在你看到某一情节时,你能知道它的前因(前信息),因此理解这一情节为何发生(当前数据)。类似的逻辑还有定外卖······等等。

2025-10-16 09:58:05 799

原创 Bagging算法:提升模型性能的利器

Bagging算法是一种集成学习方法,通过bootstrap采样构建多个基学习器并聚合预测来提升模型性能。该算法能有效降低模型方差,提高泛化能力,尤其适用于高方差基学习器如决策树。其扩展版本随机森林通过特征随机选择进一步增强多样性。Bagging优势在于并行化训练、减少过拟合,但存在计算成本高、解释性差的缺点。它适用于高方差、噪声大的场景,对稳定学习器效果有限,使用时需权衡计算资源。

2025-09-25 09:25:52 698

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除