NLP
文章平均质量分 95
机器学习自然语言处理NLP
noobiee
一般路过的普通学生
展开
-
NLP入门- 分布语义学(Distributional Semantics)
我们已经学习了将文档作为上下文的 TF-IDF 矩阵,以及将单词作为上下文的 PMI/PPMI 矩阵。很重要的一点是,无论我们采用文档还是单词作为上下文信息,我们都可以利用 SVD 来创建密集向量。但是,通过不同的上下文信息所捕获到的关系是不一样的,如果我们采用 TF-IDF,我们捕获到的语义学信息会更加宽泛,通常和某种主题关联;如果我们采用 PMI/PPMI,我们捕获到的词向量更多是关于局部单词上下文的语义学信息。2. 神经网络方法Word2Vec:学习一个分类器,给定词向量预测上下文向量。原创 2023-12-20 04:44:06 · 1172 阅读 · 0 评论 -
NLP入门——语言结构/语言建模
1. 语素 morphemes词素是最小的有意义的语言单位,不能够进一步划分为更小的单位而不破话或彻底改变其词汇意义或语法意义。语素和词的区别在于,许多语素不能独立存在。而能够单独存在并且有意义的语素叫做;不能独立存在,要借助其他语素表达意义的语素则称之为。每个词都包含最少一个语素。按能否需要特别指出,有时候派生语素和屈折语素会采用同一种表现形式。比如说,-er,当这个后缀跟在形容词后面,它作为屈折语素,表示比较级;当跟在动词后面,则是一个派生语素,形成一个新词,如cook-cooker。从。原创 2023-10-24 00:01:19 · 4983 阅读 · 0 评论 -
数据科学的文本技术 Text Technology(IR信息检索、搜索引擎)
有人或许会以牛津英语词典(Oxford English Dictionary)作为一个标准的尺度,它里面的单词数目前超过了600,000,但是对于大部分大规模的文档集来说,其词汇量会远远大于这个数目,因为词典不会包含人名之类的特殊词汇。中间的绿色表示 DF (Document Frequency),即出现某词项的文档的数量,这里也就是词项对应的倒排记录表(Posting List)的长度;现在看来会有些多余,因为现在的我们只要在类似问题中提到的索引,都是从“词项”反映射到“文档”,这已成为主流的索引方式。原创 2023-09-16 02:02:21 · 525 阅读 · 0 评论 -
tokenizers总结
"annoying"并"ly"作为独立的子词会更频繁地出现,同时,"annoyingly"是由"annoying"和"ly"这两个子词的复合含义构成的复杂含义,这在诸如土耳其语之类的凝集性语言中特别有用,在该语言中,可以通过将子词串在一起来形成(几乎)任意长的复杂词。将word-level的分词方法改成 char-level的分词方法,对于英文来说,就是字母界别的,比如 "China"拆分为"C","h","i","n","a",对于中文来说,"中国"拆分为"中","国",原创 2023-09-19 21:15:43 · 675 阅读 · 0 评论 -
大语言模型LLM
2020年1月,OpenAI发表了论文《Scaling Laws for Neural Language Models》,研究了基于交叉熵损失的语言模型性能的经验尺度法则,并且发现:大模型使用样本的效率显著更高,因此最优的高效训练方式是在中等数据集上训练超大模型,并在显著收敛前提前停止。由于指令微调阶段训练了非常多的任务,大模型任务能力可以泛化到之前没有见过的任务上,这使得模型初步具备了回答人们提出的任何指令的可能。,使用 LoRA 进行的微调质量与全模型微调相当,同时速度更快且需要更少的计算。原创 2023-07-26 19:11:41 · 2047 阅读 · 0 评论 -
LangChain: LLM应用开发框架
LangChain创建于2022年10月,是围绕LLMs(大语言模型)建立的一个框架,LLMs使用机器学习算法和海量数据来分析和理解自然语言。LangChain自身并不开发LLMs,它的核心理念是为各种LLMs实现通用的接口,把LLMs相关的组件“链接”在一起,简化LLMs应用的开发难度,方便开发者快速地开发复杂的LLMs应用。模型(models): LangChain 支持的各种模型类型和模型集成。提示(prompts): 包括提示管理、提示优化和提示序列化。内存(memory)原创 2023-06-22 21:41:18 · 1134 阅读 · 0 评论 -
NLP语言模型概览
Pre-trained Language Model(PLM)模型BERT 具有两种输出,一个是pooler output,对应的[CLS]的输出,以及sequence output,对应的是序列中的所有字的最后一层hidden输出。所以BERT主要可以处理两种,一种任务是分类/回归任务(使用的是pooler output),一种是序列任务(sequence output)原创 2023-08-10 19:55:35 · 2868 阅读 · 0 评论 -
机器学习NLP领域入门
Project Gradient Descent(PGD)是一种迭代攻击算法,相比于普通的FGM 仅做一次迭代,PGD是做多次迭代,每次走一小步,每次迭代都会将扰动投射到规定范围内。在保存模型或者评估模型时,会利用影子权重进行评估,如果效果比当前效果好,则保存影子权重的参数,但是之后在继续训练的时候会还原之前的参数进行训练。双向的LSTM后面接softmax,但此时输出标签之间是没有关系的,加了CRF后,可以建立起输出标签之间的关联关系。.........原创 2022-08-17 17:43:52 · 1979 阅读 · 0 评论