NLP自然语言处理
文章平均质量分 96
从浅至深,逐渐掌握NLP
小言从不摸鱼
欲买桂花同载酒,且惜时,望同游...
展开
-
【NLP自然语言处理】文本特征处理与数据增强
给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.举个例子:假设给定分词列表: ["是谁", "敲动", "我心"]对应的数值映射列表为: [1, 34, 21]我们可以认为数值映射列表中的每个数字是词汇特征.除此之外, 我们还可以把"是谁"和"敲动"两个词共同出现且相邻也作为一种特征加入到序列列表中,假设1000就代表"是谁"和"敲动"共同出现且相邻。原创 2024-09-09 16:15:37 · 300 阅读 · 4 评论 -
【NLP自然语言处理】文本张量表示方法
🍀了解什么是文本张量表示及其作用🍀 掌握如下三种文本张量表示的方法及其实现:one-hot编码,Word2vecWord,Embedding原创 2024-09-06 22:41:09 · 1756 阅读 · 155 评论 -
【NLP自然语言处理】文本处理的基本方法
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.举个例子:无线电法国别研究['无线电法', '国别', '研究']词作为语言语义理解的最小单元, 是人类理解文本语言的基础. 因此也是AI解决NLP领域高阶任务, 如自动问答, 机器翻译, 文本生成的重要基础环节.原创 2024-09-03 15:17:12 · 3077 阅读 · 186 评论