互联网上的猪-CSDN博客

原创 VMware上部署Hadoop集群（包括部署前的VMware安装和创建准备、克隆虚拟机、免密登录、JDK的安装、伪分布式部署和完全分布式部署）（新手友好，巨详细）

超级详细的部署Hadoop，包括部署前的所有安装准备，克隆虚拟机、免密登录、JDK的安装、伪分布部署和完全分布式部署

2024-11-23 19:27:08 3824 2

原创 AARRR用户增长模型（海盗指标）详解

AARRR用户增长模型详解，包括获取 (Acquisition)、激活 (Activation)、留存 (Retention)、推荐 (Referral)、收入 (Revenue) 的定义、衡量指标及优化思路。

2025-05-11 14:56:22 1999 2

原创激活函数（sigmoid、Tanh、ReLu、softmax、softmin、LogSoftma）公式，作用，使用场景和python代码（包含示例）详解

Softmin 激活函数是 Softmax 激活函数的一种变体，它同样将一组实数转换为概率分布，不过更倾向于突出较小的值。激活函数是一些非线性、可微分的函数。LogSoftmax 激活函数是对 Softmax 函数的输出取自然对数。输入值小于等于 0 时，输出 0。输出均值接近 0，有助于缓解梯度下降时的“偏移”问题。与负对数似然损失（NLLLoss）结合时，效率更高。对输入进行简单截断，将负值置为 0，正值保持不变。除以这个和，得到的结果都在0到1之间，且。将任意实数映射到 (0,1) 区间内。

2025-05-10 13:46:46 1868 1

原创损失函数（平方损失MSE、绝对值损失MAE、负对数似然损失NLL、交叉熵损失CEL和二元交叉熵损失BCE）原理、公式调库实现与手动实现

在机器学习和深度学习中，损失函数（Loss Function）是衡量模型预测值与真实值之间差异的函数，指示模型在当前参数下的“代价”或“错误”程度，其最小化过程即是模型训练的核心目标。损失函数通常位于模型的输出端、反向传播前，用来指导梯度下降等优化算法更新模型参数。

2025-05-09 20:11:06 2085

原创用户价值挖掘——详解RFM模型与K-Means聚类（其中包含肘部法和轮廓系数法）原理+代码

K-Means 聚类是一种基于质心（centroid）的无监督学习方法，用于将 n 个样本划分到 K 个簇（cluster）中，使得同一簇内的样本彼此相似度高，不同簇间的样本差异大。选择折线图的拐点变缓处（降低的幅度变小的）作为最佳K值（详细如何选择可查看下文的“2.6 肘部法”，这里查看上图可选择3或4），这里可以根据SSE的变化趋势选择拐点，也可以根据其他评估指标选择最佳K值。M越大，客户越重要。对聚类算法来说，只能帮助我们划分出客户的群体，但是，对于具体的某个群体，属于什么类型的客户，需自行分析。

2025-05-08 13:11:00 1610

原创 “数据指标口径”和“数据增长计算”的概念

指标口径是指取数逻辑，即如何从数据源中提取、筛选并计算出指标的完整规则，包括所用的字段维度、时间范围、数据筛选条件以及计算公式等。在统计学范畴，也称为统计口径，它是进行数据统计时所采用的标准与指标体系，涵盖统计方式统计范围等要素，确保统计结果在不同时间或部门之间可比。

2025-04-21 13:31:20 1392

原创朴素贝叶斯算法(包括算法介绍、数学公式推导、代码示例、垃圾邮件分类的手动实现案例)详细解释通俗易懂

朴素贝叶斯（Naive Bayes）是一类基于贝叶斯定理的简单而有效的概率分类方法，其关键思想在于特征之间相互独立的假设。尽管这种“朴素”的假设在现实问题中往往不严格成立，但在很多场景中（如文本分类、垃圾邮件过滤等）表现依然非常优秀，具有计算量小、易于实现和解释性强等优点。计算效率高，适合大规模数据。实现简单，容易解释。对于小数据集往往表现不错。特征之间条件独立的假设往往不符合实际，可能降低模型性能。对于数据缺失和极端值较为敏感。在类别不平衡问题中，先验概率PCP(C)PC。

2025-04-14 13:33:52 1271

原创词袋模型和TF-IDF（数学公式推导、手动实现、调库使用、示例：使用词袋模型处理多个文档）详解

词袋模型是一种将文本表示成向量把一个文本视作“装满单词的袋子”，忽略单词出现的顺序和语法信息构造一个词汇表（词典），然后统计文档中每个词汇出现的次数得到的向量维度等于词典中不同词的数量，向量的每个元素通常代表相应单词的词频（TF，Term Frequency）忽略了单词之间的顺序和上下文信息对常见无意义词（例如停用词）的区分能力较差。

2025-04-11 12:44:40 1185

原创辛普森悖论（成因分析、数学与图像表示和解决方法）详细解释，通俗易懂

辛普森悖论（Simpson’s Paradox）指的是在分组数据中，各组内呈现某一趋势或结论，但当将所有组的数据合并后，整体数据却呈现相反趋势的现象。这种现象通常说明在数据聚合过程中，存在混杂或隐含的影响因素，使得分组内的真实关系被整体数据的权重分布所扭曲。假设在两组人群中比较两种治疗方法 A 和 B，分组统计显示在每个子组中治疗 A 的成功率均高于治疗 B；但将两个子组数据合并后，治疗 B 的总体成功率反而高于 A。这就构成了辛普森悖论。

2025-04-10 16:18:31 3401 1

原创优势比、风险比、队列研究和病例对照研究的详细介绍（用例解释更通俗易懂）

优势比反映的是在两种条件下某事件发生与不发生的比值之比，是病例对照研究中常用的指标。患病不患病暴露ab不暴露cd\begin{array}{c|cc} & \text{患病} & \text{不患病} \\ \hline \text{暴露} & a & b \\ \text{不暴露} & c & d \\ \end{array}暴露不暴露患病ac不患病bdaaa表示既暴露又患病的人数，bbb表示暴露但未患病的人数，ccc。

2025-04-10 14:58:53 2159

原创 Excel计数、求和、统计、计算类函数

Excel计数函数（count、counta、countif、countblank、countifs）、求和函数（sum、sumif、sumifs、sumproduct）、统计函数（average、average、averageif、averageifs）、计算类函数（min、max、mod、rank、round、floor、rand、int、randbetween、stdev、var、large、small、frequency）

2025-04-07 12:03:10 3214

原创 excel关联类函数（包括vlookup、hlookup、xlookup、lookup、index、match、offset、row、colum、choose）

VLOOKUP和HLOOKUP是最基础的查找函数，适用于简单的数据表查找，但有方向限制（VLOOKUP只能从左向右，HLOOKUP只能从上向下）。LOOKUP适用于有序数据的近似查找，但要求数据必须升序排列。INDEX和MATCH组合可以实现任意方向的查找，并且当数据结构发生变化时公式更不容易出错。OFFSET则常用于创建动态数据区域。新版本Excel中的XLOOKUP与XMATCH集合了上述函数的优点，语法更直观，功能更强CHOOSE用于根据索引返回指定的值。

2025-04-07 11:05:18 1709

原创 excel常见错误包括（#N/A、#VALUE!、#REF!、#DIV/0!、#NUM!、#NAME?、#NULL! ）

错误代码含义常见原因示例或说明#N/A值不可用使用查找函数（如 VLOOKUP）找不到匹配值。，如果找不到 1001，则返回#N/A。#VALUE!无效的数值使用错误的数据类型（如将文本与数字相加）。，尝试将文本与数字相加，会导致#VALUE!错误。#REF!无效的单元格引用引用的单元格已被删除或引用无效。=Sheet2!A1，如果工作表 Sheet2 被删除，引用将导致#REF!错误。#DIV/0!除以零除数为零或单元格为空。=100/A1，如果 A1 为 0 或为空，则返回#DIV/0!

2025-04-07 09:52:11 2409

原创 excel的逻辑类型函数（主要包括if、and、or、not、xor、iserror、iferror、true、false、ifs、ifna、switch）

Excel 的逻辑函数为我们在处理数据时提供了非常强大的条件判断和错误处理能力。通过组合使用 IF、AND、OR、NOT、XOR 等函数，可以构造复杂的逻辑判断；而 ISERROR、IFERROR、IFNA 等函数则帮助我们优雅地处理计算中可能出现的错误。再加上 IFS 和 SWITCH 等函数，可以使公式的结构更加清晰、易于理解。掌握这些逻辑函数，将大大提升在数据分析、报表制作和自动化决策中的工作效率。

2025-04-07 09:34:14 2012

原创 Excel时间类型函数（包括today、date、eomonth、year、month、day、weekday、weeknum、datedif）

Excel 使用的日期是一个从 1900 年 1 月 1 日开始的序列号，例如：以下是主要函数的详细介绍：用途：返回当前日期，不包含时间部分。示例：用途：返回由年、月、日三个参数构成的日期。示例：用途：返回指定日期前/后指定月数的月份的最后一天。示例：用途：从给定日期中提取年份。示例：用途：从给定日期中提取月份（1-12）。示例：用途：从给定日期中提取日期中的“日”。示例：用途：返回一个日期对应的星期几，默认为到。示例：用途：返回一个日期在一年中的第几周。示例：用于计算两个日期之间的差值，并返回

2025-04-02 20:55:42 2276

原创 Excel数据清洗函数（包括left、right、mid、len、lenb、concatenate、text、trim、replace、substitute、find、search）

例如，在对一列数据进行预处理时，你可以先用 TRIM 去掉多余空格，再用 LEFT/MID/RIGHT 提取有效部分，最后用 SUBSTITUTE 或 REPLACE 对错误或不标准的格式进行修正。将 “Hello” 中第 1 个字符开始的 2 个字符 “He” 替换为 “Y”，返回 “Yllo”。：在文本字符串中将某一指定文本替换为新的文本，可选择性地只替换第几次出现的目标文本。：去除文本中多余的空格，仅保留单词之间的单个空格，不删除中间的正常空格。：从文本的最左侧提取指定数量的字符。

2025-03-31 13:34:00 1387

原创参数估计学习笔记通俗易懂版（包括点估计和区间估计（区间估包括总体均值的置信区间（总体标准差未知、总体标准差已知）和总体方差的置信区间））

参数估计学习笔记通俗易懂版（包括点估计和区间估计（区间估包括总体均值的置信区间（总体标准差未知、总体标准差已知）和总体方差的置信区间））

2025-03-21 21:54:34 2074

原创伯努利分布和二项分布学习笔记

随机变量取值设随机变量XXXX1表示成功（例如“正面”、“合格”等）0表示失败（例如“反面”、“不合格”）X=1, & \text{表示成功（例如“正面”、“合格”等） } \\0, & \text{表示失败（例如“反面”、“不合格”）}X10表示成功（例如正面合格等）表示失败（例如反面不合格参数成功的概率记为ppp（其中0≤p≤100≤p≤100≤p≤10），失败的概率则为1−p1−p1−p。设XXX表示n。

2025-03-21 18:07:15 1882

原创中文分词算法（正向最大匹配算法（FMM）、逆向最大匹配算法（RMM）和双向最大匹配算法（BMM））

算法类型扫描方向优点缺点正向最大匹配从左向右实现简单、速度快易产生歧义，依赖词典完整性逆向最大匹配从右向左能在部分情况避免正向匹配的歧义同样依赖词典，部分情况下分词结果也可能不准确双向最大匹配双向对比综合两者优点，结果更合理算法复杂度高，仍受词典质量影响注意：三种算法都依赖于词典，词典不全或质量较低都会影响分词结果。分词过程中的歧义问题往往需要结合上下文或引入统计信息、机器学习方法（如 HMM、CRF）来进一步解决。

2025-03-18 13:51:43 2612

原创 MySQL 进阶学习笔记（包括MySQL的存储引擎、索引、SQL优化、视图、存储过程、触发器、锁InnoDB引擎和MySQL管理）的相关内容详细版

存储引擎就是存储数据、建立索引、更新/查询数据等技术的实现方式。存储引擎是基于表的，而不是基于库的，所以存储引擎也可以被称为表类型。MySQL 支持多种存储引擎，每种引擎适用于不同的应用场景.1. 查询建表语句-- 查询建表语句，默认存储引擎：InnoDBshow create table 表名;-- 结果) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci COMMENT='用户表'

2025-03-17 11:15:34 1037

原创 MySQL基础学习笔记，包括（DDL（数据定义语言）、DML（数据操作语言）、DQL（数据查询语言）、DCL（数据控制语言）、函数、约束、多表查询、事务和事务隔离）全是干货

MySQL基础学习笔记，包括（DDL（数据定义语言）、DML（数据操作语言）、DQL（数据查询语言）、DCL（数据控制语言）、函数、约束、多表查询、事务和事务隔离）全是干货。

2025-03-08 14:46:00 1190

原创大数据Hadoop中MapReduce的介绍包括编程模型、工作原理（MapReduce、MapTask、ReduceTask、Shuffle工作原理）

大数据Hadoop中MapReduce的介绍包括编程模型、工作原理（MapReduce、MapTask、ReduceTask、Shuffle工作原理）通俗易懂的学习笔记

2025-01-19 11:25:07 1550

原创 HDFS的Federation机制提高存储能力及读写性能的实现原理和Erasure Coding节省存储空间的原理

本文章主要介绍HDFS的Federation机制的实现原理和Erasure Coding节省存储空间的原理。

2024-12-09 22:12:00 1226

原创大数据学习案例——使用Java API操作HDFS

通过Java API演示如何操作HDFS分布式文件系统的文件和目录。

2024-12-09 20:54:46 2315

原创大数据（Hadoop）学习案例—通过Shell脚本定时采集数据到HDFS

在实际的开发环境中，服务器每天都会产生大量的日志文件，这些日志文件会记录服务器的运行状态。当服务器宕机时，可以从日志文件中查找服务器宕机原因，从而尽快让服务器恢复正常运行。这个案例演示如何通过Shell脚本周期性的将Hadoop的日志文件上传到HDFS。

2024-12-09 11:22:24 3298

原创记录报错：HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems

第一次运行hadoop程序时，报了该错误：java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems的解决方案。

2024-12-08 22:11:38 3282 2

原创大数据学习案例——词频统计

大数据学习案例——词频统计

2024-12-06 23:23:33 1034

原创 HDFS的shell操作

HDFS的shell操作（包括查看指定目录信息-ls、查看指定目录下每个文件和子目录的大小-du、移动指定目录或文件-mv、复制指定目录或文件-cp、删除指定目录或文件-rm、）将本地文件系统的文件上传到HDFS指定目录-put、查看指定文件的内容-cat、查看帮助文档-help、创建目录-mkdir、将HDFS的指定文件下载到本地文件系统-ge。本文将对上述HDFS Shell 子命令进行演示和介绍。

2024-12-06 12:32:41 1551

原创 HDFS的读写流程及健壮机制

HDFS的读写流程及健壮机制

2024-11-26 12:31:28 1006

原创 HarmonyOS 华为鸿蒙DevEco Studio的下载安装和创建项目教程

HarmonyOS 华为鸿蒙DevEco Studio的下载安装和创建项目教程

2024-11-13 10:36:12 2120

原创如何在虚拟机上安装MySQL5.7和彻底在虚拟机上删除MySQL5.7（详细版）

如何在虚拟机上安装MySQL5.7和如何彻底在虚拟机上删除MySQL5.7（详细版）

2024-11-05 12:23:26 2733

原创还未暂停hadoop就关机后，出现子节点上没有启动任何DataNode和NodeManager进程

还未暂停hadoop就关机后，出现子节点上没有启动任何DataNode和NodeManager进程

2024-11-02 21:11:18 885

原创操作系统概述

操作系统（分点总结）

2024-10-30 19:07:19 1082

原创基于完全分布式部署Hadoop（修改环境变量、修改配置文件、格式化HDFS、启动Hadoop、通过WEB UI查看Hadoop的运行状态、关闭防火墙、添加IP映射、安全模式的退出）

Hadoop学习笔记，基于完全分布式部署Hadoop，含参数详解，欢迎阅读，欢迎评论，欢迎指正。

2024-10-27 20:03:42 1726 1

原创 HDFS分布式文件系统的架构及特点

Hadoop学习笔记（独自总结精简版），如若在某个内容上理解有误，欢迎指正，谢谢。

2024-10-26 15:48:06 1159 1

2301_76901778的博客