《自然语言处理实战》笔记（梳理用）

最新推荐文章于 2024-08-18 23:08:25 发布

深海的幽灵

最新推荐文章于 2024-08-18 23:08:25 发布

阅读量96

点赞数

分类专栏：自然语言处理NLP 文章标签：自然语言处理 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_50031809/article/details/119386989

版权

自然语言处理NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第二章

正则表达式可进行最原始的聊天机器人

朴素贝叶斯可进行情感正向还是负向进行分类（情感分析），文档分类，倾向分析

类似one-hot法，词袋法前都要进行建立词库，TF-IDF可看成是词袋法的升级

可粗略去除辅助性词，通过对词频排序去除前n个，也可换成TF-IDF

sklearn的NB

第三章

TF-IDF与余弦相似度合用可进行文档相似度对比进行相似度排序搜索出与给定文档相似度高的文档，可用于小搜索引擎，聊天机器人（高度依赖搜索引擎的）

sklearn有构建的TF-IDF的模型

第四章

当词尾处理的不好时候，用TF-IDF的搜索引擎性能会下降，词义相近的可能会被当成不同的词
词形归并可能导致两个TF-IDF向量接近但意义根本不相似
词干还原可能导致拼写相似的，意义却不同的归为一类

第六章

LSA的词袋过大，词的部分意义会丢失，而Word2vec会对词领域严格限制，通常间隔不超过5个词
Word2vec可做加减
Word2vec的预训练模型特别大，一般使用时不导入这模块，
我们可以直接使用预训练好的模型如GloVe，fastText

训练词向量有两种方法：
1.skip-gram：输入目标词后预测上下文的词，如Claude Monet painted the Grand Canal of Venice in 1908 ，输入Monet 期望输出Claude。用softmax输出概率
训练的方法：
Claude Monet painted the Grand Canal of Venice in 1908 、
该句子以每个词作为中心词，划分成10个5-gram的训练样本
每一个训练样本迭代四次，因为上下词有四个

2.连续词袋方法CBOW，基于近邻词（上下文）预测输出词（目标词）
用多热向量作为输入

两者何时用？
skip-gram：小型语料库，罕见词项
CBOW：精确性高，快

第七章

关系模式可以分为空间和时间
对于以上神经网络有关键的区别
空间数据：可通过固定宽度的窗口查看
时间序列数据：可对于未知的时间无限延展

工具包
主要的神经网络底层架构：
由c语言开发：Theano，TensorFlow 都有python的API
由Lua语言开发：Torch，有python的API的是PyTorch

以上适用于从头构建模型
第三方库可以简化底层架构的使用：
Lasagne（使用Theano），Skflow（TensorFlow），Keras（Theano，TensorFlow【默认】）

深海的幽灵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《自然语言处理实战》笔记（梳理用）

第二章正则表达式可进行最原始的聊天机器人朴素贝叶斯可进行情感正向还是负向进行分类，文档分类，倾向分析sklearn的NB第三章TF-IDF与余弦相似度合用可进行文档相似度对比，可用于小搜索引擎，聊天机器人（高度依赖搜索引擎的）sklearn有构建的TF-IDF的模型...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。