NLP
文章平均质量分 82
yichudu
code anything
展开
-
LLM 幻觉现象及 RAG 解决方案
流程简介:将文本分块,然后使用一些 Transformer Encoder 模型将这些块嵌入到向量中,将所有向量放入索引中,最后创建一个 LLM 提示,告诉模型根据我们在搜索步骤中找到的上下文回答用户的查询。原创 2024-01-03 11:10:56 · 567 阅读 · 0 评论 -
GPT 系列笔记及简明源码
open ai 出品, 与 google 的 bert 系列 是不同的任务, NLGeneration vs. NLUnderstanding.原创 2023-08-28 11:43:10 · 1293 阅读 · 0 评论 -
LoRA, 替代 fine-tune 的轻量级低秩分解
LoRA, Low-Rank Adaptation of Large Language Models, 大语言模型的低秩适配器. 这里的秩就是通用的最大线性无关组个数这样的定义.适用场景: 用 Lora 来替代大模型的常规 fine-tune.原创 2023-05-15 16:12:24 · 1894 阅读 · 2 评论 -
NLP 中的 prompt 笔记
NLP 中, 一种用于 Language Model 的 Pretrained Task 范式.前辈的特点是让模型通过去适配这些任务. 流程是 “pre-train, fine-tune, and predict”.而 prompt 的思路则与此相反, 调整预训练任务的形式(Reformulate), 使其更接近于原始预训练任务(如 完形填空). 流程是 “pre-train, prompt, and predict”.原创 2023-02-16 11:09:18 · 971 阅读 · 0 评论 -
shap 中 PartitionExplainer 原理解读与官方demo的调试笔记
(masks=[False,…()内部在构造 model_pipeline 的 masked_inputs 时, 会将 前导的[CLS], 最后的[SEP]抹去, 所以虽然 mask[i] 和 mask[j] 的结果必然一致.图 观察到的现象是, 在一个batch_mask内 ,对于同样的 有效mask部分(选中高亮), 会重复四次. 所以缓存的话, 加速比是 4:1, 即提速3倍.(masks=[True…batch_masks 所盛放的这些masks是有特点的, 会存在若干对 (i,j) , 满足。原创 2021-10-18 18:37:25 · 2327 阅读 · 3 评论 -
word2vec 模型及推导
简介这是一种分布式的词向量表示方法. 词向量的介绍看 这里 .原创 2017-08-13 16:01:19 · 2114 阅读 · 0 评论 -
DocTag2Vec, 文档标注
简述DocTag2Vec 2017年7月的paper[1]. 用途: 训练好之后, 给一篇未见文档, 从预先定义好的标签库中, 挑出一些最合适的标签与之关联. 思想: Inspired by Word2Vec, 左右邻居相似的词, 在语义上也有一定的相似性, DocTag2Vec 也是沿用并拓展了种思想.classifier parameterNegtive Samplingtrainin原创 2017-11-21 14:14:45 · 1098 阅读 · 0 评论 -
互信息和左右信息熵 用于 NLP 中的短语识别与提取
标准词典分词的粒度通常太小, 相比之下短语就有更丰富的含义. 如 算法/工程师vs算法工程师, 智能/手表vs智能手表.互信息和左右信息熵参考基于互信息和左右信息熵的短语提取识别原创 2017-10-16 09:53:49 · 5554 阅读 · 0 评论 -
NLP 中的embedding layer
词汇是语料库的基本元素, 所以, 使用embedding layer来学习词嵌入, 将一个词映射成为固定维度的稠密向量. 有了这一步, 才能构造矩阵, 实现神经网络的前向传播. 如何使用?从头训练 就像word2vec一样, 这一层是可学习的, 用随机数initialize , 通过BP去调整.pre-trained + fine tuning 用其他网络(如 word2vec) 训练好的现原创 2017-10-29 16:14:30 · 4725 阅读 · 0 评论 -
Text-CNN 文本分类
1.简介TextCNN 是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 一文 (见参考[1]) 中提出. 是2014年的算法. 图1-1 参考[1] 中的论文配图 图1-2 网络盗图合理性: 深度学习模型在计算机视觉与语音识别方面取得了卓越...原创 2017-09-05 09:39:30 · 81098 阅读 · 7 评论 -
DSSM, 深度语义匹配模型
简介DSSM, Deep Semantic Similarity Model, 深度语义匹配模型, 它是基于深度神经网络的一项建模技术,可以将具有成对关系的, 不同类型的文本(e.g., < queries , documents > )投射到一个共同的低维语义空间中,进而完成后续的机器学习任务。Word Hashing当语料库规模很大时, vocabulary_si...原创 2017-12-03 19:14:02 · 8358 阅读 · 1 评论 -
NLP 预处理及Keras组件
简述NLP 任务的常用处理就是 embedding, 就需要 text_2_sequence 这步预处理. Keras 提供了一些常用的封装, 用于NLP类型的神经网络. from keras.preprocessing import sequence, text, tensorflow 的API里也有它们, 位置在 tf.keras.Tokenizerkeras.prep...原创 2017-11-26 19:37:16 · 1803 阅读 · 0 评论 -
Attention, 神经网络中的注意力机制
简介最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是一个值得关注与深入了解的核心技术。人的注意力机制: 拿到一篇文章时, 会重点关注标题和段落首句, 期望快速得到关键信息. 人群中看到心动女生时, 虽然周围熙熙攘攘的人群都映在了在你的眼帘里, 但你关注的只有那位在意的人, 其他的人仿佛视而不见. 重点关注感兴原创 2017-12-25 11:43:01 · 9104 阅读 · 0 评论 -
transformer 翻译模型及简明源码
google 出品, 基于 encoder-decoder 架构的 seq2seq 自然语言翻译模型. paper 见参考[1].创新之处是弃用 RNN,CNN 这样的结构, 采用 self-attention 与 positional-encoding 来简化结构, 加速训练, 并提升效果, 取得了 SOTA 成绩.原创 2019-04-21 23:33:36 · 4992 阅读 · 0 评论 -
BERT 与 GLUE 评测
Question Natural Language Inference. 句子pair的二分类. The positive examples are (question, sentence) pairs which do contain the correct answer, and the negative examples are (question, sentence) from the same paragraph which do not contain the answer.原创 2019-08-25 21:22:06 · 1632 阅读 · 1 评论 -
LDA, 文档主题生成模型 (undone)
LDA, Latent Dirichlet allocation. 可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。原创 2017-09-21 14:54:37 · 1007 阅读 · 0 评论 -
适用多元素内容的融合模型
这篇博文是为了分享一个标题党鉴别的实践[1]. 这是一个融合的网络结构, 有语义信息, 有文章各元素的数字特征. 准确率达到了0.99诶.语义信息 title 和 正文的 embedding.文章元素的数字特征 文章长度主标题长度副标题长度段落个数 文中图片个数 图 文章中的网络结构图参考linked-in article, clickbaits-revisited-deep原创 2017-10-17 14:37:37 · 518 阅读 · 0 评论 -
TextRank, 关键词和句子抽取
1. 简介TextRank, 基于图模型的关键词和句子抽取.2. 原理参考原始论文, TextRank: Bringing Order into Texts原创 2017-09-15 16:45:14 · 3773 阅读 · 0 评论 -
NLP 常见任务列举
词性标签Part of Speech Tag, Pos Tag, wikipedia 用于给句子的不同词语加标注, 有多种标签规则.Penn Treebank 项目用到的词性标签示意, 点这里CRF他人博客, CRF++的简单使用icwb2-data 数据集国际计算语言学会(ACL)中文语言处理小组 (SIGHAN) 在2005年举办了中文语言处理竞赛. 语料库见下: icwb2-data原创 2017-08-07 16:50:28 · 857 阅读 · 0 评论 -
统计语言模型
统计语言模型, Statistical Language Model.1. 简介自然语言具有上下文相关的特性, 所以统计语言模型就是为这种相关特性建立语言模型. 它是今天所有自然语言处理的基础. 判断一个句子是否合理, 就用概率来衡量. 一个句子就是一些词语的序列, 假定用S表示, S=w1,w2,...,wnS=w_1, w_2, ... , w_n, 那么S是一个通顺的句子的概率P(S)=原创 2017-05-07 15:34:00 · 3529 阅读 · 0 评论 -
py pypinyin 拼音库
py pypinyin 库原创 2017-09-04 09:01:35 · 2611 阅读 · 0 评论 -
GloVe 词向量模型
GloVe is an unsupervised learning algorithm for obtaining vector representations for words. GloVe: Global Vectors for Word Representation原创 2017-09-04 10:05:08 · 3946 阅读 · 0 评论 -
FastText 词向量与文本分类
1.简介FastText, 一种技术, 也是 An NLP library by Facebook.2.原理3.FastText libraryGitHub: fastText 它由两部分组成: word representation learning 与 text classification.3.1 word representation learning命令$ ./fasttext skip原创 2017-09-01 11:38:19 · 9033 阅读 · 0 评论 -
doc2vec 简介
1.简介word2vec 是词汇级别的, 那么如何延伸下去, 得到句子, 段落, 文档级别的分布式向量表示呢? Sentences vector, Paragraph Vector, Documents vector 几个概念差不多, 很多时候可以混用. Quoc Le 和 Tomas Mikolov(搞出Word2vec的家伙)两位大牛在2014年的《Distributed Represent原创 2017-08-21 10:49:02 · 2622 阅读 · 0 评论 -
py jieba 分词库
py jieba 分词库原创 2017-09-04 09:01:56 · 753 阅读 · 0 评论 -
NLP 分类问题的讨论
不同形态的文本短文本 商品评论,电影短评, 微博等内容, 句子的长度在50个单词以内。长文本 长文章, 1000单词级别。多元素内容 像电商的导购文章, 有文本,图片, 短视频, 商品信息等。分类相关手段对比Text CNN 需要固定文本长度,如50单词, 过短的进行zero-padding, 长的需要截断。FastText 输出为单词的vector时, 无法有效表示长文本。原创 2017-09-06 15:41:50 · 2321 阅读 · 0 评论 -
PageRank 简介
1.简介google 用 PageRank 来衡量网页的重要程度, 并作为排序的因子之一. 论文见 参考[1]. 论文一开始是这么说的: The importance of a Web page is an inherently subjective matter, which depends on the readers interests, knowledge and attitudes原创 2017-09-15 16:24:44 · 678 阅读 · 0 评论 -
NLP 常用数据集及语料库
1.Sogou News Corpus搜狗新闻语料库. Containing in total 2,909,551 news articles in various topic channels. 参考文献[1] 中是这么描述与使用的: : There are a large number categories but most of them contain only few articl原创 2017-09-02 17:04:18 · 10913 阅读 · 0 评论 -
常用Hash类别及三方库实现
1.简介参考simhash was developed by Moses Charikar and is described in his paper, Simhash Princeton Univ. PaperSimhash explained原创 2017-09-27 10:42:36 · 752 阅读 · 0 评论 -
gensim NLP工具库简介
1.简介一个python NLP库. 包含tf-idf模型, word2vec 与 doc2vec 等. 官网地址2.例子import logging#logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)from gensim import co原创 2017-08-30 15:29:42 · 4491 阅读 · 0 评论 -
tf-idf, NLP与搜索引擎中的词加权
tf*idftf*idf,term frequency * inverse document frequency,词频 *逆向文档频率。1.思想TF-IDF是一种统计方法,用于评估某个词语在文档集合中的重要程度。 如果某个词语term在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词语具有很好的文档分类能力。2.公式tfij=termi在docj中的出现频次docj中的总词数tf原创 2015-12-23 18:34:16 · 6146 阅读 · 0 评论 -
中文分词器
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。项目地址:http://www.oschina.net/p/ikanalyzer/下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF示例代码:import java.io.IOException;import java.io原创 2015-02-11 16:47:15 · 1252 阅读 · 0 评论