自然语言处理
文章平均质量分 93
自然语言处理
不二人生
刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂衣去,山高水远路迢迢。一个上得了厅堂下得了厨房、左手写诗右手写词的男人
展开
-
自然语言处理—TF-IDF
这一小节,我们开始涉及了一点关于自然语言处理的知识。我在这一小节讲解了一个比较古老,但是很实用的关键词提取算法 TF-IDF,它的原理十分简单、易于理解,通过 TF-IDF 的计算,保留了那些出现频率高的词汇,同时又能够打压那些比较普通的词汇,即便是现在,这个算法仍然有比较广泛的应用。原创 2024-08-12 10:58:48 · 7072 阅读 · 0 评论 -
NLP入门系列—分词 Tokenization
分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。将复杂问题转化为数学问题词是一个比较合适的粒度深度学习时代,部分任务中也可以“分字”分词方式不同,中文更难英文单词有多种形态,需要词性还原和词干提取中文分词需要考虑粒度问题中文分词的3大难点没有统一的标准歧义词如何切分新词的识别基于词典匹配基于统计基于深度学习。原创 2024-02-04 10:13:23 · 35825 阅读 · 0 评论 -
NLP入门系列—词嵌入 Word embedding
word embedding 是文本表示的一类方法。跟 one-hot 编码和整数编码的目的一样,不过他有更多的优点。可以将文本通过一个低维向量来表达,不像 one-hot 那么长。语意相似的词在向量空间上也会比较相近。通用性很强,可以用在不同的任务中。目前有两种主流的 word embedding 算法。原创 2024-02-04 10:01:49 · 36300 阅读 · 0 评论 -
NLP入门系列—Attention 机制
Attention 正在被越来越广泛的得到应用。尤其是 [BERT]火爆了之后。Attention 到底有什么特别之处?他的原理和本质是什么?Attention都有哪些类型?本文将详细讲解Attention的方方面面。原创 2024-02-02 15:33:04 · 35847 阅读 · 0 评论 -
NLP入门系列—什么是自然语言处理
每种动物都有自己的语言,机器也是!自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。人类通过语言来交流,狗通过汪汪叫来交流。机器也有自己的交流方式,那就是数字信息。不同的语言之间是无法沟通的,比如说人类就无法听懂狗叫,甚至不同语言的人类之间都无法直接交流,需要翻译才能交流。而计算机更是如此,为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。原创 2024-02-02 15:14:55 · 35299 阅读 · 0 评论 -
NLP入门系列—NLTK初识
文本已成为最常见的表达形式之一。我们每天都要发送电子邮件、短信、推文、更新状态。因此,非结构化文本数据变得非常普遍,分析大量文本数据现在是了解人们的想法的关键方法。微博上的推文帮助我们找到热门新闻主题。淘宝的评论帮助用户购买评价最高的产品。这些例子都是自然语言处理(NLP)任务的体现。NLP属于计算机科学领域,主要做人机互动。NLP技术用于分析文本,为计算机提供了一种理解人类语言的方法。NLP应用程序的一些例子包括自动文本摘要、主题分隔和情感分析。原创 2024-02-01 18:10:34 · 34199 阅读 · 0 评论