bulingg-CSDN博客

原创近似最近邻查找的几种方法

近似最近邻查找（Approximate Nearest Neighbor Search, ANNS）是一种在高维空间中查找与查询点距离最近的若干个点的技术。与精确最近邻查找不同，近似最近邻查找允许一定程度的误差，以换取更高的查询效率和更低的计算成本。

2024-06-24 14:50:33 818

长尾问题（Long Tail Problem）是指在某些数据分布中，少数类别（或事件）出现的频率非常高，而多数类别（或事件）出现的频率非常低。这个现象在很多实际应用中都存在，比如电子商务中的商品销售、自然语言处理中的词频分布、推荐系统中的用户行为等。在长尾分布中，头部（高频部分）占据了大部分的关注和资源，而尾部（低频部分）包含了大量的类别，这些类别虽然单独出现的频率低，但总量却非常大。解决长尾问题的关键在于如何有效地处理这些低频类别，以充分利用长尾部分的数据价值。

2024-06-24 11:57:56 455

原创 NLP中常见的tokenize方式及token类型

不同的任务和应用可能需要不同类型的tokens。例如，在机器翻译中可能会使用子词tokens来处理未知词汇，而在文本分类任务中，则可能更倾向于使用单词tokens。在选择tokenizer时，需要考虑文本的特点、处理任务的需求以及计算资源。通常，基于机器学习的tokenizer虽然性能较好，但计算成本也更高，而简单的基于规则的tokenizer则适用于快速处理或资源有限的场景。Tokenizer是一种工具，用于将文本分割成更小的单元，通常是单词、短语或其他有意义的符号，这些单元称为tokens。

2024-04-30 10:06:23 1027

原创深度学习中的归一化：BN，LN，IN，GN的优缺点

归一化在深度学习中的应用包括批量归一化（Batch Normalization）、层归一化（Layer Normalization）、组归一化（Group Normalization）和实例归一化（Instance Normalization）等。这些技术在不同的网络结构和任务中有着广泛的应用，是现代深度学习架构中不可或缺的一部分。Batch Norm：把每个Batch中，每句话的相同位置的字向量看成一组做归一化。Layer Norm：在每一个句子中进行归一化。Instance Norm：每一个字的字向量的

2024-04-29 19:58:08 895

原创机器学习中的线性模型和非线性模型

线性模型通常易于解释，计算效率较高，而非线性模型则可以模拟更加复杂的数据结构，但可能需要更多的数据和计算资源，并且模型的可解释性可能较差。在实际应用中，选择哪种模型通常取决于数据的特性和所要解决的问题。线性模型是基于线性假设的模型，即输出是输入特征的线性组合。非线性模型可以捕捉数据中的非线性关系。

2024-04-28 19:36:50 812

原创 SVM中常用的核函数及适用场景

核函数（Kernel functions）在机器学习中尤其是在支持向量机（SVM）中扮演着重要的角色，它们能够将数据映射到高维空间，从而解决非线性问题。在实际应用中，选择核函数通常取决于问题的具体需求和数据集的特性。通常需要通过交叉验证等方法来调整核函数的参数，以达到最佳的模型性能。

2024-04-28 19:35:51 1859

原创集成学习——随机森林

随机森林是一种集成学习方法，它通过构建多个决策树并将它们的预测结果进行汇总来做出最终的决策。每棵树都是在数据集的一个随机子样本上训练得到的，并且在分裂节点时只考虑特征的一个随机子集。这种随机性有助于提高模型的泛化能力，减少过拟合。最终的预测结果是通过对所有树的预测进行投票（分类问题）或平均（回归问题）得到的。

2024-04-19 18:34:28 935

原创机器学习——逻辑回归

总结来说，交叉熵损失函数在逻辑回归中被广泛采用，是因为它与逻辑回归模型的概率输出相匹配，可以提供良好的梯度信息，保证了损失函数的凸性。

2024-04-19 18:18:30 458

原创二分类模型来解决多分类问题

One-vs-Rest，也称为 One-vs-All，是将多分类问题分解为多个二分类问题的一种方法。对于有 ( N ) 个类别的多分类问题，OvR策略会创建 ( N ) 个二分类模型，每个模型负责将一个类别与其它所有类别区分开来。Error-Correcting Output Codes是一种更复杂的策略，它通过创建多个二分类器，并将多类标签编码为二进制串来工作。One-vs-One策略是另一种解决多分类问题的方法，它通过在每对类别间训练一个二分类模型来工作。个类别的问题，会训练。

2024-04-10 15:22:03 368

原创常用的回归损失函数

对于选择损失函数，需要考虑模型的具体需求和数据的特点。例如，如果数据包含许多异常值，可能会选择Huber损失或MAE来减少异常值的影响。如果模型需要惩罚大的误差，MSE或RMSE可能是更好的选择。

2024-04-10 15:18:47 965

原创面试反问环节

一般反问3、4个问题。

2024-04-06 09:47:15 239

原创统计学中不同相关系数的比较

Pearson是对线性关系的度量，对于非线性关系和非正态分布的数据可能不是很敏感。Kendall和Spearman是非参数方法，它们对于非正态分布的数据和非线性关系更为稳健，但通常具有较低的统计效能。Spearman通常对异常值更为敏感，而Kendall在处理小样本数据或有许多重复值的数据时更为可靠。

2024-03-15 14:31:29 1047

原创机器学习各类算法的优缺点

介绍常见机器学习模型的优缺点，比如逻辑回归，k近邻，朴素贝叶斯，支持向量机

2024-02-29 16:01:09 1128

原创机器学习中类别不平衡问题的解决方案

类别不平衡（class-imbalance）就是指分类任务中不同类别的训练样例数目差别很大的情况。

2024-02-28 21:53:57 2300

原创 leetcode1079:游戏玩法分析——求留存率

我们将日期 x 的第一天留存率定义为：假定安装日期为 X 的玩家的数量为 N ，其中在 X 之后的一天重新登录的玩家数量为 M，M/N 就是第一天留存率，四舍五入到小数点后两位。（player_id，event_date）是此表的主键(具有唯一值的列的组合)编写解决方案，报告所有安装日期、当天安装游戏的玩家数量和玩家的第一天留存率。将以上进行综合，并用t3中的第二天仍登录数量/首次登录的玩家数量，等于留存率。玩家的安装日期定义为该玩家的第一个登录日。这张表显示了某些游戏的玩家的活动情况。

2024-02-05 17:25:06 659

原创 T618:sql行转列求学生地理报告

编写解决方案实现对大洲（continent）列的透视表操作，使得每个学生按照姓名的字母顺序依次排列在对应的大洲下面。

2024-02-05 15:47:08 258

原创 sql求解连续两个以上的空座位

按照seat_id排序（上面已经有序），并赋予排名，返回按 seat_id 升序排序的结果表。A:我们首先找出所有的空座位：1，3，4，5。测试用例的生成使得两个以上的座位连续可用。Q：查找电影院所有连续可用的座位。，因此可以分为以下几步。结果表格式如下所示。

2024-02-04 14:30:48 1392

原创 python求解中位数

如果数组长度n为奇数，则(n+1)/2处对应值为中位数，如果数组下标从0开始，还需要减去1。如果数组长度n为偶数，则n/2,n/2+1两个位置数的平均值为中位数。首先将数组nums进行排序，然后找到中间位置的数值。假设中位数为x，并采用大小根堆来存储元素。

2024-02-03 16:10:03 2262

原创 sql求中位数

中位数是指有序数列中，位于的数的值若为奇数，则中间数开始位置=结束位置若为偶数，则中位数结束位置-开始位置=1即求解公司员工薪水的中位数。

2024-02-03 11:52:47 2672

原创 python中的小根堆模块heapq

小根堆由二叉树表示，其中每个节点均小于其左右节点的值。

2024-02-02 17:57:23 576

原创 python文件输入读取——ACM格式

python读取多行输入的3中方式，sys.stdin,sys.stdin.readline(),input()

2024-02-02 13:10:40 468

原创 NLP任务中常用的损失函数

问答系统（生成式问答），生成式任务（如文本生成）等对应的损失函数形式及文本相似度的评价指标

2024-01-17 18:15:10 1407

原创 Bert详解

BERT的网络架构使用的是《Attention is all you need》中提出的多层Transformer结构。其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。Transformer的结构在NLP领域中已经得到了广泛应用。

2024-01-17 14:23:09 1467

原创 transformer详解

介绍transformer中各个组件的原理，包括attention,resnet,layer normalization,position encoding等

2024-01-16 18:19:41 1134

原创 sql窗口函数中的取值函数

sql中rank,row_number,dense_rank,lag,lead的区别和用法

2024-01-16 15:19:56 414

原创 Collections模块中函数应用

Collections模块提供了一系列的容器数据类型，这些数据类型是对Python标准数据类型如字典、列表、集合和元组的扩展。

2024-01-02 19:46:16 356

原创 bisect二分查找库的函数详解

bisect二分查找库中函数用法

2024-01-02 16:57:14 588

原创 leetcode1360：日期之间隔几天

输入：date1 = “2019-06-29”, date2 = “2019-06-30”输入：date1 = “2020-01-15”, date2 = “2019-12-31”日期以字符串形式给出，格式为 YYYY-MM-DD，如示例所示。给定的日期是 1971 年到 2100 年之间的有效日期。请你编写一个程序来计算两个日期之间隔了多少天。

2023-12-30 23:14:44 350

原创给定数（日期），返回N天前（后）的日期

给定一个由数字组成的字符串，判断是否为日期类型数据（year-month-day），如果为日期，则返回N天前或者N天后的日期，如果不是日期类型数据，返回False。

2023-12-30 22:41:45 511

原创 LLM——检索增强生成RAG

RAG 是一种结合了检索（Retrieval）和生成（Generation）的自然语言处理技术。它旨在通过先从一个大型的文档数据库中检索相关信息，然后基于检索到的信息生成回答或内容，从而增强语言模型的能力。

2023-12-28 19:33:42 730

原创 python中的切片赋值

切片赋值的原理及深拷贝、浅拷贝

2023-12-28 11:49:52 409

原创预测方法与实践（一）

描述了预测常见的几种方法，以及相关基础知识

2023-12-15 15:59:17 65

原创数据标准化方法及应用场景

介绍了6种数据标准化方法，及标准化的目的

2023-12-15 14:36:54 229

原创 excel绘制直方图

介绍了excel绘制直方图的两种形式

2023-11-24 11:01:54 199

原创表的连接方式——内连接、全连接、左右连接等

介绍了sql中的表连接方式

2023-11-10 16:41:02 66

原创 mysql进行表格行转列、列转行

介绍了mysql行转列，列转行

2023-11-03 15:44:04 44

原创数据分布类型及处理方式

讲述了常见的6种数据分布形势，以及对应的概率函数，期望和方差

2023-11-03 12:51:35 423

原创 GBDT和XGBoost的原理

集成学习通过构建多个学习器来完成学习任务，主要分为以下两大类：本节主要讲述Boosting：step1，从初始训练集训练出一个基学习器step2，根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注step3，基于调整后的样本分布来训练下一个基分类器step4，重复进行上述操作，直到基学习器数目达到事先指定的值Tstep5，将T个基学习器进行加权结合以决策树（分类树或者回归树）为基函数的提升树的提升方法称为提升决策树，简称提升树。提升树是加法模型和前向分布算法

2023-10-31 16:52:17 90

原创批量归一化和层归一化

为什么需要进行归一化？如果将输入序列的每一维数值进行归一化，使其在一定范围之内，比如0和1之间，可以加快基于梯度下降的学习的收敛速度原因：梯度下降以相同的学习率对每一维进行最小化，如果取值范围差异很大，学习就很难在各个维度上同时收敛；如果将学习率取得很小，可以避免这个问题，但是学习效率会降低。

2023-08-21 21:36:03 244

原创 Leetcode238——除自身以外数组的乘积

给你一个整数数组 nums，返回数组 answer ，其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。进阶：你可以在 O(1) 的额外空间复杂度内完成这个题目吗？如果不做要求，可以先获取所有元素乘积，然后每遍历一个元素，除以当前元素即为左右元素之积，但是题目中不允许使用除法。输入: nums = [-1,1,0,-3,3]输入: nums = [1,2,3,4]输出: [24,12,8,6]输出: [0,0,9,0,0]

2023-08-21 12:30:49 55

空空如也

空空如也