suvedo-CSDN博客

【kdd2021】【amazon】Session-Aware Query Auto-completion using Extreme Multi-Label：https://assets.amazon.science/5e/76/6ebacfc240e1a58b69a6f5347833/session-aware-query-auto-completion-using-extreme-multi-label-ranking.pdfabstract加入previous context，有助于理解用户

2022-01-28 15:40:05 977

原创【原创】人工客服会话日志挖掘论文调研

业务需求：在人工客服服务日志中抽取问答对，配置到机器人知识库中调研：业界方案一：抽取式：QA matching：以question为出发点，即假设question已经确定，从上下文(主要是上文)中找到该question的答案，组成问答对【ECAI-2020】Matching Questions and Answers in Dialogues from Online Forums：https://arxiv.org/pdf/2005.09276.pdf【LREC-2020】Cross-s

2022-01-28 15:27:58 1618

原创【原创】715. Range Module -- Leetcode 算法笔记

LeetCode 715. Range Module题目要求高效地实现区间的添加，删除和查询操作。题目分析：本题是一道设计题，要求实现一个类(Range Module)的三个方法：addRange(int, int), queryRange(int, int) 和 removeRange(int, int)。该类的对象会穿插地调用这三个方法。听起来有点像并查集，但并查集“一般”不涉及删除操作...

2020-11-04 23:15:57 437

原创【原创】678. Valid Parenthesis String --Leetcode算法笔记

LeetCode 678. Valid Parenthesis String**题目描述：**输入一个仅包含'(',')'和'*'的字符串，判断字符串左右括号是否匹配，其中'*'可表示左括号，右括号或者为空。题目分析：方法一：动态规划要计算[i, j]区间内的左右括号是否匹配，可以计算[i, k]和[k + 1, j]区间的字符串是否同时匹配，（其中i <= k < j）,如...

2020-11-04 23:15:37 368

原创【原创】456. 132 Pattern -- Leetcode算法笔记

[LeetCode. 456 132 Pattern] https://leetcode.com/problems/132-pattern/description/题目描述：找出整型数组nums是否存在“132”模式，（“132”模式即，存在i < j < k，满足nums[i] < nums[k] < nums[j]），如果存在返回true，否则返回false。题...

2020-11-04 23:15:00 359

原创【原创】字符串匹配的三种场景及其解法

本文讲解字符串匹配相关算法。字符串匹配就是给定两个字符串集合A和B，求A和B是否匹配。具体来说，如果集合A、B都只包含一个字符串（即字符串A和字符串B），则是一对一匹配场景，要解决的问题是字符串B是否是字符串A的子串（与子序列区别）；如果集合A包含多个字符串，集合B只包含一个字符串（即字符串B），则是一对多匹配场景，要解决的问题是字符串B是否出现在集合A中（是否是A的元素）；如果集合A和集合B都包含多个字符串，则是多对多匹配场景，要解决的问题是集合A、B的交集有多少。一对一匹配一对一匹配经典的解法是K

2020-11-04 23:04:50 628

原创【原创】字典树的五种实现方式

字典树（trie树），是一种前缀树，可以在O(m)的时间复杂度匹配目标字符串（m为目标字符串的长度），字典树广泛应用在NLP领域作为词典，具体应用有：分词、词频统计、字符串查询、字符串排序等。虽然字典树有较低的时间复杂度，但当词典较大时（如中文分词词典），字典树占用的空间非常大，常常难以满足工业应用的需求，因此需要在保持字典树优异的时间复杂度的前提下，尽可能的优化字典树的空间。本文由浅入深，讲解经典字典树、链表字典树、Hash表字典树、双数组字典树、单数组字典树5种字典树实现及各种实现的优缺点。经典字典

2020-11-04 23:01:39 1503

原创【原创】预训练词表示之word2vec(一)

本系列讲解NLP任务中的词表示(word representation)方法。词表示就是用连续(continuous)、稠密(dense)、低维度(low-dimension)的向量表示词的特征，有别于传统nlp任务中使用的one-hot、ngram、tf-idf等特征，词表示是一种用连续浮点数表示的向量，具有稠密、维度低的特点，而传统特征太过于稀疏，且无法有效表达词与词之间的关系(语义相似性、句法关系等)，不利于模型学习；良好训练的词向量可以作为神经网络的输入，神经网络结合词与词之间的依赖关系得到句子的

2020-11-04 22:57:18 1270

原创【原创】机器学习一般流程总结

前段时间总结了下机器学习的一般流程，经过一番梳理后，写成博客，与大家分享。机器学习一般包含这5个步骤：数据获取、特征提取、模型训练和验证、线下测试、线上测试。数据获取首先从线上拉取用户真实数据，用现有模型过一遍这些数据得到一些有用的信息作为标注人员的一个参考，加快标注速度；标注完成后，数据入库并解决冲突，冲突即是同一个query，两次标注结果不一致，解决冲突的办法一般是人工check，得到一个更准确的标注；特征抽取NLP任务一般需要抽取数据的特征，如ngram、词典特征、词向量特征、上游模块的输

2020-11-04 22:50:00 10851

原创【原创】序列标注之Bi-LSTM+CRF

本文讲解序列标注任务。序列标注是自然语言处理的基本任务，包括词性标注、中文分词、槽位识别等。例如，在中文分词任务中，模型为每个字打上s/b/m/e等标签，分别表示单字成词、词语起始字、词语中间字、词语结尾字，将标签b/m/e结合起来就成了一个中文词，而s则单独分成一个中文词。解决序列标注问题常用的方法有HMM、MEMM、CRF、LSTM等，目前工业上比较成熟的方案是Bi-LSTM+CRF，2018年google提出了BERT作为预训练词向量模型，其具有比Bi-LSTM更强的特征学习能力，因此现在很多

2020-11-04 22:46:01 1705

原创【原创】XGBoost分类器原理及应用实战

本文结合作者对xgboost原理的理解及使用xgboost做分类问题的经验，讲解xgboost在分类问题中的应用。内容主要包括xgboost原理简述、xgboost_classifer代码、xgboost使用心得和几个有深度的问题XGBoost原理简述xgboost并没有提出一种新的机器学习算法，而是基于现有的GBDT/lambdaMART等tree boosting算法在系统及算法层面（主要是系统层面）进行了改进；系统层面改进点包括：带权重的分位点分割算法(weighted quantile sket

2020-11-04 22:35:57 14028 3

原创【原创】深入浅出Attention和Transformer

本文介绍attention机制和基于attention的transformer模型。网上关于这两者的博客很多，但大都照搬论文，千篇一律，不够深入和通俗，本文在参考这些博客和原始论文的基础上，加入自己的理解，深入且通俗的讲解attention和transformer。Attention in RNNBengio等人在2014年Neural machine translation by jointly learning to align and translate中提出Attention机制。传统的RNN

2020-11-04 22:26:02 5361 1

原创【论文阅读】NIPS2018 Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels

论文地址：http://papers.nips.cc/paper/8072-co-teaching-robust-training-o论文代码：https://github.com/bhanML/Co-teaching （PyTorch）针对噪声数据的训练，目前主要有两种方式：训练noise transition matrix，例如：在softmax输出之后再接一层softmax先从带噪数据中选出干净数据，再用干净数据训练模型从带噪数据选出干净数据的两个典型网络：Mentor Net：训练一个

2020-11-04 22:11:34 4128

原创【论文阅读】NIPS2018 Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels

论文地址：https://papers.nips.cc/paper/8094-generalized-cross-entropy-loss-for-training-deep-neural-networks-with-noisy-labels.pdf针对带噪数据的训练学习，直接选取CCE(Categorical Cross Entropy)作为loss function会导致模型在噪声数据上overfitting，AAAI2017 Robust Loss Functions under Label Noi

2020-11-04 22:03:33 5068 4

原创【论文阅读】CVPR2017 Learning From Noisy Large-Scale Datasets With Minimal Supervision

【原创】【论文阅读】2020 Learning From Noisy Large-Scale Datasets With Minimal Supervision论文地址：https://vision.cornell.edu/se3/wp-content/uploads/2017/04/DeepLabelCleaning_CVPR.pdf利用大规模有噪数据训练模型的常用方法是在有噪数据上做预训练，在精标数据上做精调。本文提出一种利用精标数据降低有噪数据中噪声的方法。模型结构如下：两个任务：La

2020-10-09 21:22:31 593

原创【原创】正负例样本失衡及focal loss

前段时间在解决分类任务时，发现当正负例比例相差较大时，分类算法更倾向于优化比例较大的类别的loss，最终导致正负例上的正确率有极大悬殊。这其实是做分类任务时经常遇到的问题，即正负例比例不均衡，解决此类问题的办法除了较常用的over-samping/under-sampling之外，还有一类方法是修改loss函数，使其能更均衡的去学习正负样本。比较容易想到的方法是直接对正负样本的loss加上不同...

2019-11-11 22:10:45 1753