erainm-CSDN博客

原创 Transformer中自注意力为什么要除以根号dk

这么看来，是不是效果很明显了，当矩阵维度越大时，得到的信息会丢失掉很多。在Transformer中自注意力计算过程中，需要除以。，可以缩放点积结果，避免信息损失。而且保持数值稳定性。接着采用m和n为300，400，但是除以。三个参数矩阵，大小相同，数值不同～将m和n扩大到300，400。先采用小矩阵，不除以。

2025-12-08 16:01:38 273

原创基于deepseed训练框架相关问题

本文总结了ChatGLM模型训练中的常见问题及解决方案：1)多机通信失败需重装PyTorch依赖；2)loss下降不明显可改用ChatGLM-Finetuning框架；3)8卡单机仅能6卡运行时需修改为分布式采样；4)处理百万级数据时优化dataset逻辑，包括数据分片、按需加载和向量缓存，同时注意训练数据质量和多机环境一致性。这些方案有效解决了分布式训练中的资源利用和性能问题。

2025-11-01 16:46:57 214

摘要：本项目基于手机硬件参数预测二手手机价格区间（0-3类）。通过收集电池容量、内存、摄像头像素等20个特征指标，构建全连接神经网络模型。采用PyTorch框架实现数据预处理、模型构建与训练，使用交叉熵损失函数和SGD优化器进行多分类任务。模型包含两个隐藏层（128和256个神经元），通过ReLU激活函数处理非线性关系。实验将数据按8:2划分训练集和验证集，采用批处理方式优化训练效率，为手机定价提供数据驱动的决策支持。

2025-08-13 20:45:21 78

原创 AI大模型 - 深度学习(Pytorch版)3

本文介绍了深度学习中参数初始化和损失函数的关键内容。参数初始化部分详细阐述了7种初始化方法（均匀分布、正态分布、全0/1、固定值、Kaiming、Xavier）及其适用场景，并提供了PyTorch实现代码。损失函数部分重点讲解了多分类交叉熵损失(softmax)、二分类交叉熵损失(sigmoid)和回归任务中的MAE损失(L1)的计算原理与实现方式，包括数学公式和对应PyTorch函数。文章还给出了不同激活函数下初始化方法的选择建议，以及各类损失函数的特点和适用任务。

2025-08-13 20:40:46 225

原创 AI大模型 - 深度学习2

PyTorch自动微分与神经网络基础摘要： PyTorch通过autograd模块实现自动微分功能，极大简化了神经网络训练过程。神经网络由输入层、隐藏层和输出层构成，神经网络工作过程包括前向传播（计算预测值）和反向传播（计算梯度并更新参数）,神经元工作时会产生4个关键值

2025-08-13 20:16:09 54

原创 AI大模型 - 深度学习1

本文讲述了深度学习简介、深度学习相关框架、以及详细介绍了Pytorch框架及基本API操作

2025-08-04 23:47:32 138

原创 AI大模型 - 机器学习5（聚类算法）

本文主要说明了聚类算法的KMeans算法以及介绍了混淆矩阵中的精确度、召回率、F1分数

2025-08-01 23:19:10 101

原创 AI大模型 - 机器学习4（分类算法）

本文主要说明机器学习中分类算法的逻辑回归，主要解决分类问题，介绍了逻辑回归应用场景以及逻辑回归原理（交叉熵损失函数、似然函数以及伯努利分布函数），也说明了交叉熵和似然函数关系，最后介绍了逻辑回归API以及案例

2025-08-01 23:04:05 66

原创 AI大模型 - 机器学习3（回归算法）

本文主要对机器学习算法中的回归算法进行介绍，说明了线性回归API、损失函数、正规方程法、梯度下降法、回归模型评估方法以及案例详细代码，而且文章中介绍了机器学习算法使用到相关的数据知识，便于大家理解

2025-08-01 22:46:08 252

原创 AI大模型 - 机器学习2（K近邻算法）

本文主要对KNN算法进行介绍，了解APi、距离度量、以及特征处理

2025-08-01 20:53:42 57

原创 AI大模型 - 机器学习基础（一）

本文介绍了人工智能（AI）、机器学习（ML）和深度学习（DL）三大核心概念及其关系。AI是模拟人类智能的广泛领域，ML作为其子集通过数据学习规律进行预测，DL则利用多层神经网络处理复杂模式识别。文章通过买西瓜和房价预测的案例，生动解释了机器学习的基本原理，包括特征、标签、线性回归等关键术语。同时概述了机器学习的发展历史和AI三要素（数据、算法、算力），并介绍了结构化/非结构化数据、数值/分类数据等数据类型划分。文章强调模型是学习到的规则集合，而大模型通过海量参数提升处理能力。

2025-07-25 11:41:46 64

原创 AI大模型初体验 - 基于Streamlit和Ollama实现聊天机器人

Streamlit是一个开源的Python库，专为数据科学家和工程师设计，可快速将数据分析和模型转化为交互式Web应用。它具有简单易用、快速开发、高度可定制等特点，提供文本、输入控件、数据展示等丰富组件。文章展示了用户注册页面和AI聊天机器人的实现案例，并介绍了如何通过Ollama调用本地大模型构建智能对话系统。Streamlit无需前端知识，通过简洁的Python代码即可创建功能完善的Web应用，适合快速原型开发。聊天机器人基于Streamlit和Ollama共同创建。

2025-07-24 09:34:53 253

原创 AI大模型初体验 - 聊天机器人

聊天机器人是一种模拟人类对话的程序，应用广泛于客服、教育、娱乐等领域。其核心技术包括自然语言处理（NLP）、对话管理和个性化交互。当前主流搭建方式包括无代码平台、开源框架和大模型集成三种，其中基于大模型（如DeepSeek、Kimi等）的方案能提供更优的对话体验。Ollama作为一个开源的本地大模型部署工具，简化了LLM的本地运行流程，支持多种模型并保障数据隐私。文章详细介绍了聊天机器人的架构、应用场景及Ollama的安装使用方法，为不同需求的开发者提供了技术选型参考。

2025-07-21 17:58:26 656

原创 AI大模型基础 - Python数据分析（Numpy、Pandas、Matplotlib）

介绍Python数据分析三大核心库Numpy、Pandas和Matplotlib。三者协同工作，形成"数值计算-数据处理-结果可视化"的完整分析流程。文章还提供了各库的安装方法和中文显示解决方案，并通过一个完整案例演示了三库的综合应用流程，展示了从数据生成、处理到可视化的典型数据分析工作流。

2025-07-21 14:14:03 219

原创 AI大模型基础-排序算法

文章摘要：本文系统介绍了三种基础排序算法。首先解释了排序算法的稳定性概念（相同元素相对位置不变），并列举了稳定与不稳定算法示例。然后详细讲解了冒泡排序（相邻元素两两比较交换）、选择排序（每轮选择最小元素交换）和插入排序（将无序元素插入有序部分）的原理、实现步骤和时间复杂度分析。其中冒泡排序为稳定算法，时间复杂度O(n²)；选择排序不稳定，最优O(n)；插入排序通过构建有序序列实现排序。三种算法均附有Python代码实现样例，适用于小规模数据排序场景。

2025-07-15 12:04:45 171

原创 AI大模型基础-数据结构

本文介绍了数据结构的基本概念与分类，重点阐述了线性结构的存储实现方式。主要内容包括：内存存储基础：以字节为单位，整型占4字节，字符占1字节；线性结构特点：非空集、每个节点最多一个前驱和后继；顺序表实现：分为一体式和分离式存储，通过下标偏移实现O(1)访问；链表结构：详细说明单向链表、循环链表和双向链表的节点构成；代码示例：用Python实现单向链表的基本操作，包括节点类、链表类及增删查等方法。文章对比了顺序表和链表的存储特点，为理解数据结构提供了基础框架。

2025-07-15 11:49:18 226

原创 AI大模型创作手札简介

AI大模型创作手札

2025-07-15 11:25:21 270

原创 Docker部署MySQL

docker部署MySQL

2024-01-21 20:23:58 579

原创 python安装（windows、mac os、linux）

本文主要记录python各个平台系统（windows、mac os、linux）的安装

2024-01-21 18:48:19 1678

原创 Hive时间相关计算函数

最近在写sql，经常会使用到hive的这些时间计算函数，记录下来，方便以后大家使用

2022-12-01 14:24:34 1482

原创 StructedStreaming消费Kafka数据突然存储不到HDFS

问题描述：StructedStreaming消费Kafka数据存储到HDFS中，以前正常存储，突然就存储不进去了，可以新建文件夹，但是数据写入不进去了。分析：通过流写出到控制台，能消费数据，说明消费正常，但是就是写不进HDFS中，说明写时不能触发HDFS保存。/*** 消费数据，写到控制台*/val query = spark.sql(sql) .writeStream .format("console") .outputMode("append") .start

2022-03-14 09:16:21 2763

原创大数据面试宝典之JVM篇

哈喽，亲爱的小伙伴们，大家好，我是猿天歌，相信大家都是有一定研发经验，也都有一定调优经历，但是经常在面试时，会有一定的困扰：比如说面试前突击记忆一下JVM原理等理论，然后面试时问你在实际项目中如何进行JVM参数调优、如何解决OOM或者GC等问题，然后一脸茫然。或者说，因为工作职责的分配，很少去接触JVM调优等，然后面试时又经常会被问到。我为什么会出JVM面试题专栏呢？首先，肯定是面试的需要，大家都知道入职一线大厂不光关注技术的宽广度，还需要考察技术的深度，尤其是现在技术内卷的时代，大部分公司面试时这都是

2021-12-28 18:43:22 1718 1

原创 hive问题-return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

执行hive sql时遇到问题：FAILED:Execution Error,return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask这个其实一般是个hive内部错误，处理这个问题就需要找日志了；找日志hive.log(比较简略)hive.log ===> 缺省情况下 /tmp/root/hive.log (不然就在你hive-site.conf配置的日志路径里)我这里在/tmp/root目录下去里面看了日志，没

2021-09-23 11:44:26 10335

原创 zookeeper全面总结

1. HBase 简介2. HBase原理3. HBase应用及优化

2021-09-04 14:21:42 1968

原创 HUE安装配置

1. HUE 编译安装2. HUE 集成Hadoop、Hive

2021-08-22 19:26:27 2309

原创 hadoop群起集群脚本

vim hadooponekey.sh#!/bin/bashif [ $# -lt 1 ]then echo "No Args Input..." exit ;ficase $1 in "start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------" ssh had

2021-07-28 10:18:29 420

原创海量实时广告流平台（DSP广告系统）架构设计与实践

1. 项目背景在互联网上，流量=变现流量变现的⽅式有很多种，不同的产品/平台，变现模式不一样。按大类分，无外乎三类:卖广告、卖产品/服务、增值服务。今天重点说说广告的变现模式，并主要解决两个问题:⼴告从何来？怎样的广告策略才能让流量变现最大化？广告来源可以有很多渠道，分两个大类:直投客户:来⾃自己销售，或代理公司。这⾥的直投是指直接在流量⽅广告系统投放，可以自建也可以使用第三方⼴告系统。在变现上，DAU千万级以上的产品就不用过于发愁了，不管是自建销售队伍还是走代理公司，一般

2021-07-25 12:00:31 8495 2

原创数据中台建设-学习笔记

数据中台建设-学习笔记

2021-07-14 17:49:09 227

原创中台建设-学习笔记3

中台建设-学习笔记3

2021-07-14 17:48:16 181

原创数据中台笔记

数据中台

2021-07-14 17:47:17 203

原创企业数据中台-数据治理

企业数据中台数据治理

2021-07-14 17:45:41 285

原创 2021大数据十大关键词解读

2021大数据十大关键词解读

2021-07-14 17:43:56 184

原创 NIO原理

网络体系：OSI IEEEIO体系本地（local）IO字节流：InputStream、OutputStream字符流：Reader、Writer网络（远程）IONIO与IO区别：NIO通道和缓冲区：通道（Channel）：表示打开IO设备（例如：文件、套接字Socket）的连接。若需要NIO系统，需要获取用于连接IO设备的通道以及用于容纳数据的缓冲区（Buffer）。然后操作缓冲区，对数据进行处理。缓冲区（Buffer）：一个用于特定基本数据类型的容器。由java.nio包定义的，所

2021-04-26 20:11:37 263

原创数据湖 - 学习笔记（一）

1. 企业的数据困扰互联网的兴起和数据孤岛非结构化数据保留原始数据集中存储、成本可控、使用简单，能够支持任意格式输入并拥有分析处理能力2. 数据湖理论2.1写时模式VS读时模式写时模式：数据在写入之前，就需要定义好数据的schema，数据按照schema的定义写入数据库-表：预先定义好表结构，创建好库数据库、数据仓库、数据集市或者具体的一些框架如：Mysql，Redis， HBase等均是写时模式，即数据在写入之前就需要预先有Schema定义好才可以。读时模式：数据在写

2021-04-22 17:43:51 660 2

原创数据中台 -- 学习笔记（一）

数据中台：是指通过数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径，中台还可以根据ThoughtWork首席咨询师给出的定义来解释。“企业级的能力复用平台”；“企业级”划定了中台的范围，区分了单系统的服务化和微服务；“能力”指定了中台的主要承载对象，能力的抽象解释了各种各样的中台的存在；“复用”定义了中台的核心价值，过去的平台化对于易复用性并没有给予足够的关注。中台的兴起，使得人们的目光更多的从平台内部，转到平台对于前台业务的支撑上；“平台”说明了中台的主要形式，区别于应用系统拼凑的方

2021-04-22 17:36:51 3151 2

ArcGIS+Engine+C#实例开发教程

DirectX-Repair

Mac版 - SecureCRT_9.0.1_(2451.141440)__macw.dmg

SecureFX_9.0.1_(2451.141440)__macwk.dmg

空空如也