![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法工程师
文章平均质量分 85
bulingg
打怪升级的散养研究生一枚
展开
-
长尾问题定义及如何解决长尾分布问题
长尾问题(Long Tail Problem)是指在某些数据分布中,少数类别(或事件)出现的频率非常高,而多数类别(或事件)出现的频率非常低。这个现象在很多实际应用中都存在,比如电子商务中的商品销售、自然语言处理中的词频分布、推荐系统中的用户行为等。在长尾分布中,头部(高频部分)占据了大部分的关注和资源,而尾部(低频部分)包含了大量的类别,这些类别虽然单独出现的频率低,但总量却非常大。解决长尾问题的关键在于如何有效地处理这些低频类别,以充分利用长尾部分的数据价值。原创 2024-06-24 11:57:56 · 502 阅读 · 0 评论 -
NLP中常见的tokenize方式及token类型
不同的任务和应用可能需要不同类型的tokens。例如,在机器翻译中可能会使用子词tokens来处理未知词汇,而在文本分类任务中,则可能更倾向于使用单词tokens。在选择tokenizer时,需要考虑文本的特点、处理任务的需求以及计算资源。通常,基于机器学习的tokenizer虽然性能较好,但计算成本也更高,而简单的基于规则的tokenizer则适用于快速处理或资源有限的场景。Tokenizer是一种工具,用于将文本分割成更小的单元,通常是单词、短语或其他有意义的符号,这些单元称为tokens。原创 2024-04-30 10:06:23 · 1053 阅读 · 0 评论 -
深度学习中的归一化:BN,LN,IN,GN的优缺点
归一化在深度学习中的应用包括批量归一化(Batch Normalization)、层归一化(Layer Normalization)、组归一化(Group Normalization)和实例归一化(Instance Normalization)等。这些技术在不同的网络结构和任务中有着广泛的应用,是现代深度学习架构中不可或缺的一部分。Batch Norm:把每个Batch中,每句话的相同位置的字向量看成一组做归一化。Layer Norm:在每一个句子中进行归一化。Instance Norm:每一个字的字向量的原创 2024-04-29 19:58:08 · 901 阅读 · 0 评论 -
NLP任务中常用的损失函数
问答系统(生成式问答),生成式任务(如文本生成)等对应的损失函数形式及文本相似度的评价指标原创 2024-01-17 18:15:10 · 1417 阅读 · 0 评论 -
transformer详解
介绍transformer中各个组件的原理,包括attention,resnet,layer normalization,position encoding等原创 2024-01-16 18:19:41 · 1141 阅读 · 0 评论 -
LLM——检索增强生成RAG
RAG 是一种结合了检索(Retrieval)和生成(Generation)的自然语言处理技术。它旨在通过先从一个大型的文档数据库中检索相关信息,然后基于检索到的信息生成回答或内容,从而增强语言模型的能力。原创 2023-12-28 19:33:42 · 735 阅读 · 0 评论 -
批量归一化和层归一化
为什么需要进行归一化?如果将输入序列的每一维数值进行归一化,使其在一定范围之内,比如0和1之间,可以加快基于梯度下降的学习的收敛速度原因:梯度下降以相同的学习率对每一维进行最小化,如果取值范围差异很大,学习就很难在各个维度上同时收敛;如果将学习率取得很小,可以避免这个问题,但是学习效率会降低。原创 2023-08-21 21:36:03 · 247 阅读 · 0 评论 -
字节算法岗面经1
bi-LSTM,随机森林,降维等算法岗面经原创 2023-08-13 09:38:08 · 181 阅读 · 1 评论