![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 78
suvedo
NLP NLU 机器学习
展开
-
【原创】CUDA并行计算
并行计算 cuda 深度学习原创 2022-05-10 17:45:13 · 1377 阅读 · 0 评论 -
【原创】BERT知识融合
NLP BERT 知识融合原创 2022-04-27 16:36:35 · 1595 阅读 · 0 评论 -
【原创】query自动补全论文调研
【kdd2021】【amazon】Session-Aware Query Auto-completion using Extreme Multi-Label:https://assets.amazon.science/5e/76/6ebacfc240e1a58b69a6f5347833/session-aware-query-auto-completion-using-extreme-multi-label-ranking.pdfabstract加入previous context,有助于理解用户原创 2022-01-28 15:40:05 · 825 阅读 · 0 评论 -
【原创】人工客服会话日志挖掘论文调研
业务需求:在人工客服服务日志中抽取问答对,配置到机器人知识库中调研:业界方案一:抽取式:QA matching:以question为出发点,即假设question已经确定,从上下文(主要是上文)中找到该question的答案,组成问答对【ECAI-2020】Matching Questions and Answers in Dialogues from Online Forums:https://arxiv.org/pdf/2005.09276.pdf【LREC-2020】Cross-s原创 2022-01-28 15:27:58 · 1523 阅读 · 0 评论 -
【原创】预训练词表示之word2vec(一)
本系列讲解NLP任务中的词表示(word representation)方法。词表示就是用连续(continuous)、稠密(dense)、低维度(low-dimension)的向量表示词的特征,有别于传统nlp任务中使用的one-hot、ngram、tf-idf等特征,词表示是一种用连续浮点数表示的向量,具有稠密、维度低的特点,而传统特征太过于稀疏,且无法有效表达词与词之间的关系(语义相似性、句法关系等),不利于模型学习;良好训练的词向量可以作为神经网络的输入,神经网络结合词与词之间的依赖关系得到句子的原创 2020-11-04 22:57:18 · 1139 阅读 · 0 评论 -
【原创】机器学习一般流程总结
前段时间总结了下机器学习的一般流程,经过一番梳理后,写成博客,与大家分享。机器学习一般包含这5个步骤:数据获取、特征提取、模型训练和验证、线下测试、线上测试。数据获取首先从线上拉取用户真实数据,用现有模型过一遍这些数据得到一些有用的信息作为标注人员的一个参考,加快标注速度;标注完成后,数据入库并解决冲突,冲突即是同一个query,两次标注结果不一致,解决冲突的办法一般是人工check,得到一个更准确的标注;特征抽取NLP任务一般需要抽取数据的特征,如ngram、词典特征、词向量特征、上游模块的输原创 2020-11-04 22:50:00 · 10319 阅读 · 0 评论 -
【原创】序列标注之Bi-LSTM+CRF
本文讲解序列标注任务。序列标注是自然语言处理的基本任务,包括词性标注、中文分词、槽位识别等。例如,在中文分词任务中,模型为每个字打上s/b/m/e等标签,分别表示单字成词、词语起始字、词语中间字、词语结尾字,将标签b/m/e结合起来就成了一个中文词,而s则单独分成一个中文词。解决序列标注问题常用的方法有HMM、MEMM、CRF、LSTM等,目前工业上比较成熟的方案是Bi-LSTM+CRF,2018年google提出了BERT作为预训练词向量模型,其具有比Bi-LSTM更强的特征学习能力,因此现在很多原创 2020-11-04 22:46:01 · 1543 阅读 · 0 评论 -
【原创】XGBoost分类器原理及应用实战
本文结合作者对xgboost原理的理解及使用xgboost做分类问题的经验,讲解xgboost在分类问题中的应用。内容主要包括xgboost原理简述、xgboost_classifer代码、xgboost使用心得和几个有深度的问题XGBoost原理简述xgboost并没有提出一种新的机器学习算法,而是基于现有的GBDT/lambdaMART等tree boosting算法在系统及算法层面(主要是系统层面)进行了改进;系统层面改进点包括:带权重的分位点分割算法(weighted quantile sket原创 2020-11-04 22:35:57 · 13552 阅读 · 3 评论 -
【原创】深入浅出Attention和Transformer
本文介绍attention机制和基于attention的transformer模型。网上关于这两者的博客很多,但大都照搬论文,千篇一律,不够深入和通俗,本文在参考这些博客和原始论文的基础上,加入自己的理解,深入且通俗的讲解attention和transformer。Attention in RNNBengio等人在2014年Neural machine translation by jointly learning to align and translate中提出Attention机制。传统的RNN原创 2020-11-04 22:26:02 · 5042 阅读 · 1 评论 -
【论文阅读】NIPS2018 Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels
论文地址:http://papers.nips.cc/paper/8072-co-teaching-robust-training-o论文代码:https://github.com/bhanML/Co-teaching (PyTorch)针对噪声数据的训练,目前主要有两种方式:训练noise transition matrix,例如:在softmax输出之后再接一层softmax先从带噪数据中选出干净数据,再用干净数据训练模型从带噪数据选出干净数据的两个典型网络:Mentor Net:训练一个原创 2020-11-04 22:11:34 · 3790 阅读 · 0 评论 -
【论文阅读】NIPS2018 Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels
论文地址:https://papers.nips.cc/paper/8094-generalized-cross-entropy-loss-for-training-deep-neural-networks-with-noisy-labels.pdf针对带噪数据的训练学习,直接选取CCE(Categorical Cross Entropy)作为loss function会导致模型在噪声数据上overfitting,AAAI2017 Robust Loss Functions under Label Noi原创 2020-11-04 22:03:33 · 4717 阅读 · 4 评论 -
【论文阅读】CVPR2017 Learning From Noisy Large-Scale Datasets With Minimal Supervision
【原创】【论文阅读】2020 Learning From Noisy Large-Scale Datasets With Minimal Supervision论文地址:https://vision.cornell.edu/se3/wp-content/uploads/2017/04/DeepLabelCleaning_CVPR.pdf利用大规模有噪数据训练模型的常用方法是在有噪数据上做预训练,在精标数据上做精调。本文提出一种利用精标数据降低有噪数据中噪声的方法。模型结构如下:两个任务:La原创 2020-10-09 21:22:31 · 529 阅读 · 0 评论 -
【原创】正负例样本失衡及focal loss
前段时间在解决分类任务时,发现当正负例比例相差较大时,分类算法更倾向于优化比例较大的类别的loss,最终导致正负例上的正确率有极大悬殊。这其实是做分类任务时经常遇到的问题,即正负例比例不均衡,解决此类问题的办法除了较常用的over-samping/under-sampling之外,还有一类方法是修改loss函数,使其能更均衡的去学习正负样本。比较容易想到的方法是直接对正负样本的loss加上不同...原创 2019-11-11 22:10:45 · 1569 阅读 · 0 评论