自然语言处理
文章平均质量分 96
Encarta1993
Talk is cheap. Show me the code
展开
-
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第十一周) - 自然语言处理扩展研究
语言锚定强调的是将抽象的语言信息与具体、可感知的现实世界信息相结合,从而让机器能够更好地理解和生成语言。偏见和歧视(Bias and Discrimination),NLP模型可能会在种族、性别、宗教等方面表现出偏见,这通常源于训练数据中的不平衡和偏见。语言锚定涉及将语言单元(如词汇、短语、句子)与外部世界的物理实体和感知数据(如图像、视频、声音等)进行关联,实现基于真实世界情境的语言理解。多语言知识库和知识图谱,构建和使用多语言知识库,进行跨语言的知识推理和问答。原创 2024-06-15 11:30:29 · 1098 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第十周) - 自然语言处理应用
文本摘要(Text Summarization)是自然语言处理中的一个重要任务,旨在自动生成简洁明了的摘要,从而概括出原始文本的主要内容。文本摘要技术主要分为两大类:抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive Summarization)。抽取式摘要通过选择和提取原文中的关键句子或段落生成摘要,而不改变原文的文字顺序和表述方式。词频统计(Term Frequency, TF):通过统计词频来判断句子的权重。原创 2024-06-15 11:29:48 · 886 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第九周) - 可解释性
这时,我们可以看到,例如“收入”对预测结果的正面影响最大,“年龄”对预测结果的负面影响最大等信息,从而更好地理解模型在这个特定示例中的决策依据。在图像分类任务中,如果大部分图像数据集中包含的某个类别背景一致(例如,猫的照片总是在室内),模型可能会将背景与类别关联起来,导致在不同背景下的图像分类效果不佳。在机器学习和自然语言处理中,标注伪影(Annotation Artifacts)指的是在数据标注过程中引入的非预期或有偏的特征,这些特征在训练模型时可能导致模型学到了不应有的模式或偏差。原创 2024-06-15 11:28:50 · 786 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第八周) - 现代大语言模型
例如,在文本生成任务中,如果有一部分输入是[A][B],随后再出现一个[A],模型通过这两个头的协同工作,很有可能会预测出下一个标记是[B],因为它识别到这种模式并进行了有效的复制和传播。GPT-3虽然在各大NLP任务以及文本生成的能力上惊艳,但是仍然还是会生成一些带有偏见的,不真实的,有害的造成负面社会影响的信息,而且并不按人类喜欢的表达方式去说话。这种延续观察到的模式的能力是语言模型生成高质量文本的基础,尤其是在上下文学习中,模型通过提供的示例来掌握任务,并生成符合这些示例模式的输出。原创 2024-06-15 11:23:08 · 1203 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第七周) - 结构化预测
常见的应用包括词性标注(POS tagging)、命名实体识别(NER)、分块(Chunking)、语义角色标注(Semantic Role Labeling)、句法解析(Syntactic Parsing)等。在介绍大语言模型之前,先把自然语言处理中遗漏的结构化预测补充一下,因为大模型实打实地最先干掉的行业便是自然语言处理,虽然网传各个最容易被大模型替代的行业里从来没有自然语言处理,但现实是有了大模型后,之前的所有自然语言处理技术都显得不那么有价值了。因此,合理的建模方法通常需要考虑元素之间的依赖关系。原创 2024-06-08 12:46:26 · 1299 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第六周) - 预训练模型
在预训练语言模型出现之前,统计语言模型(如N-gram模型)是主流方法。这些模型利用统计方法来预测文本中的下一个词,但它们对长距离依赖和上下文理解能力有限。2013年,Google提出的Word2Vec模型利用神经网络来学习词的分布式表示(词向量),使得相似词在向量空间中彼此接近。这是预训练词嵌入技术的开端。斯坦福大学提出的GloVe(Global Vectors for Word Representation)模型通过结合全局词共现统计信息来生成词向量,进一步提升了词表示的质量。原创 2024-06-08 12:43:36 · 738 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第五周) - Transformer
在语言建模中,注意力(attention)是一个关键机制,用于在给定上下文中访问相关信息以进行预测。注意力机制允许模型根据输入上下文中的重要信息来加权关注不同的部分,并根据其重要性来决定对不同部分的关注程度。例如,对于一个给定的输入句子,语言模型可以使用注意力机制来确定在生成下一个单词时应该关注句子中的哪些部分。当模型预测下一个单词时,它可以根据输入句子中不同位置的单词的重要性来调整注意力权重。这意味着模型可以更有针对性地关注与当前预测相关的上下文信息,而不是简单地平均考虑整个句子。原创 2024-06-02 16:21:14 · 1172 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第四周) - 语言建模
如果我们想要预测句子中的下一个词,我们可以使用前面的一个词作为上下文,并计算每个可能的下一个词的概率。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这类模型基于统计方法,利用大量文本数据学习语言的统计规律,进而预测未知文本的概率,或者为给定的文本序列生成最可能的后续词汇。准确率作为语言模型的评估指标没有太多意义,语言是开放的序列预测问题,给定前面的文本,下一个词的可能性是非常多的,因此准确率值会非常低。原创 2024-06-02 16:13:18 · 1152 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第三周) - 词嵌入
FastText引入了子词级别的信息,将单词表示为子词的集合,并通过平均或叠加子词的向量来得到单词的表示。而动态词向量模型(如ELMo、BERT、GPT系列)则通过考虑词的上下文信息,提供了更为丰富和灵活的词表示,尤其擅长于捕捉语言的细微差别和复杂语境,但计算成本较高。它们利用单词在文档中的频率和全局语料库的统计信息,计算单词之间的相似性,并将单词表示为稠密向量。通过将单词表示为连续的向量,词嵌入克服了传统的离散表示(如One-Hot)所带来的维度灾难问题,同时也捕捉到了单词之间的语义相似性和关联性。原创 2024-05-25 11:49:29 · 274 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第二周) - 多类别分类和神经网络
分类是一个预测建模问题,它涉及到在给定输入的情况下输出类标签。通常分类任务是从两个或多个标签中预测一个标签,在这中情况下,类是互斥的,这意味着分类任务假定输入只属于一个类。这就是多类别分类问题(Multiclass Classification),多分类任务只有一个类别是1,其他都是0。在多类别分类中,“one vs all” 或 “one vs rest”(一对其余)是一种常用的策略,用于将多个类别的分类问题转化为多个二分类问题。在这种策略中,每个类别都被视为一个正类别,而其他所有类别被视为一个统一的负类原创 2024-05-20 00:29:16 · 700 阅读 · 0 评论 -
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第一周) - 自然语言处理介绍和线性分类
自然语言处理的目标是什么能够解决需要深入理解(deep understanding)文本的问题。能够构建与我们交流的系统:对话系统(dialogue system)、机器翻译(machine translation)、摘要(summarization)等。能够构建从文本中抽取信息(extract information)并回答问题(answer question)的系统。标准自然语言处理流程(pipeline)获取原始文本(text)。原创 2024-05-12 18:02:19 · 1058 阅读 · 0 评论