NLP 任务中有哪些巧妙的 idea？

最新推荐文章于 2022-11-08 18:46:53 发布

郝伟老师的技术博客

最新推荐文章于 2022-11-08 18:46:53 发布

阅读量297

点赞数

原文链接：https://www.zhihu.com/question/356132676/answer/901244271

版权

文章目录

1. 分布式假设（Distributional Hypothesis）
2. 词袋模型（Bag-of-Words）
3. 潜在语义分析（Latent Semantic Analysis）
4. 概率主题模型（Probabilistic Topic Models ）
5. 基于BMES的中文分词或基于BIO的NER/Chunking
6. 基于PageRank的TextRank

转载来源：https://www.zhihu.com/question/356132676/answer/901244271
作者：邱锡鹏

这个问题很有趣！看了下目前的回答都是深度学习之后的，我就回答几个深度学习之前的吧：）
先从语义表示说起吧，个人觉得都是简单并且巧妙的想法（但其背后的理论不一定简单）。

1. 分布式假设（Distributional Hypothesis）

“Linguistic items with similar distributions have similar meanings.” 参考

直白点就是，一个词的语义可以用它的上下文表示。

对NLP来说，个人觉得分布式假设是来自语言学的最有价值的“理论”之一。

2. 词袋模型（Bag-of-Words）

将一篇文档看作是一个词的集合，不考虑语法，甚至是词序信息也都抛弃了。

BoW模型解决了用机器学习来做NLP的一个痛点问题：怎样把一个变成的文本序列转换为定长的向量。

相关扩展：N-gram，TF-IDF等3. 潜在语义分析（Latent Semantic Analysis）

3. 潜在语义分析（Latent Semantic Analysis）

基于上面的分布式假设和词袋模型，我们可以构建一个词-文档矩阵（term-document matrix） $X$ 。这个矩阵 $X$ 很有意思，每一列为一个文档的表示（BoW向量），每一行为一个词的语义表示（分布式假设，其中上下文是以文档为基本单位）。这样我们就可以用 $X^{T}X$ 表示文档和文档之间的关系，用 $XX^{T}$ 表示词与词之间的关系。这个矩阵还可以进行SVD分解，得到词和文档的稠密向量表示，可以发现潜在的语义信息（比如主题等）。
alt

4. 概率主题模型（Probabilistic Topic Models ）

概率主题模型比词袋模型多引入了一个“主题（Topic）”作为隐变量。词和文档的之间关联变成了：文档->主题->词。这个想法合情合理，听上去就更好。如果你觉得哪里不好，又可以魔改。概率主题模型的数学基础（概率有向图模型）十分漂亮，并且基于吉布斯采样的推断简单到不可思议，甚至不需要图模型的知识就可以理解。PTM是前深度学习时代NLP领域的一个大宝矿（Shui Keng）！
alt

5. 基于BMES的中文分词或基于BIO的NER/Chunking

BMES 是Begin/Middle/End/Single的缩写，代表所标记的字符是一个词语的开始/中间/结尾/单字词。

BIO是Begin/Inside/Outside的缩写，表示所标记的词是一个实体名的开始/内部/外部。
alt
这种标记将带有分割性质的NLP任务转换为序列标注任务，可以使用HMM、CRF等成熟的机器学习模型。

6. 基于PageRank的TextRank

PageRank本身非常巧妙了，TextRank更是巧妙地将PageRank应用到NLP中的词排序或句子排序上面，比如关键词抽取、文本摘要等.
alt

郝伟老师的技术博客

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP 任务中有哪些巧妙的 idea？

文章目录1. 分布式假设（Distributional Hypothesis）2. 词袋模型（Bag-of-Words）3. 潜在语义分析（Latent Semantic Analysis）4. 概率主题模型（Probabilistic Topic Models ）5. 基于BMES的中文分词或基于BIO的NER/Chunking6. 基于PageRank的TextRank转载来源：https://www.zhihu.com/question/356132676/answer/901244271作者：
复制链接

扫一扫

郝伟老师的技术博客 CSDN认证博客专家 CSDN认证企业博客

码龄4年

0: 原创

118万+: 周排名

124万+: 总排名

7万+: 访问

: 等级

725: 积分

26: 粉丝

55: 获赞

11: 评论

383: 收藏

私信

关注

热门文章

最新评论

文本生成评价指标的进化与推翻
纤云弄晓: bleu是双语的评价工具，那如果用在单语中能否进行文章评价，该怎么使用
Soft-Masked BERT：文本纠错与BERT的最新结合
lmw0320: 另外，即使忽略这些增减字的数据情况，我训练出来的模型效果，貌似d_acc和c_acc一直都很低，这个是怎么回事呢？没有论文中提到的70-80那么高。。
Soft-Masked BERT：文本纠错与BERT的最新结合
lmw0320: 关于softmaskedbert的代码hiyoung123/SoftMaskedBert，我有点疑问。代码中将今日头条的38W新闻标题进行处理，自动合成错误文本来训练。。但是这个自动合成方法，其有个不足之处，就是正确和错误的句子长度是相同的，也就是将正确文本中的单字进行替换处理，而没有实现增减字的情况（而且也只是对字进行处理，并没有词组级别的处理）。。我想请教的是，如果要实现增减字的情况，其label要如何处理?? 这点，我一直不知道怎么弄。。求指点。。
Soft-Masked BERT：文本纠错与BERT的最新结合
奶茶去冰三分甜: 经人民日报语料微调过的BERT模型，通过pycorrect加载来做基于MLM的文本纠错求大佬分享源码！
自然语言处理（NLP）语义分析--文本分类、情感分析、意图识别
8991潇霖: 想问下意图识别中半监督产生标注数据的主要方法有哪些呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。