《自然语言处理实战》笔记(梳理用)

第二章

正则表达式可进行最原始的聊天机器人

朴素贝叶斯可进行情感正向还是负向进行分类(情感分析),文档分类,倾向分析

类似one-hot法,词袋法前都要进行建立词库,TF-IDF可看成是词袋法的升级

可粗略去除辅助性词,通过对词频排序去除前n个,也可换成TF-IDF

sklearn的NB


第三章

TF-IDF与余弦相似度合用可进行文档相似度对比进行相似度排序搜索出与给定文档相似度高的文档,可用于小搜索引擎,聊天机器人(高度依赖搜索引擎的)

sklearn有构建的TF-IDF的模型


第四章

当词尾处理的不好时候,用TF-IDF的搜索引擎性能会下降,词义相近的可能会被当成不同的词
词形归并可能导致两个TF-IDF向量接近但意义根本不相似
词干还原可能导致拼写相似的,意义却不同的归为一类


第六章

LSA的词袋过大,词的部分意义会丢失,而Word2vec会对词领域严格限制,通常间隔不超过5个词
Word2vec可做加减
Word2vec的预训练模型特别大,一般使用时不导入这模块,
我们可以直接使用预训练好的模型如GloVe,fastText

训练词向量有两种方法:
1.skip-gram:输入目标词后预测上下文的词,如Claude Monet painted the Grand Canal of Venice in 1908 ,输入Monet 期望输出Claude。用softmax输出概率
训练的方法:
Claude Monet painted the Grand Canal of Venice in 1908 、
该句子以每个词作为中心词,划分成10个5-gram的训练样本
每一个训练样本迭代四次,因为上下词有四个

2.连续词袋方法CBOW,基于近邻词(上下文)预测输出词(目标词)
用多热向量作为输入

两者何时用?
skip-gram:小型语料库,罕见词项
CBOW:精确性高,快


第七章

关系模式可以分为空间和时间
对于以上神经网络有关键的区别
空间数据:可通过固定宽度的窗口查看
时间序列数据:可对于未知的时间无限延展

工具包
主要的神经网络底层架构:
由c语言开发:Theano,TensorFlow 都有python的API
由Lua语言开发:Torch,有python的API的是PyTorch

以上适用于从头构建模型
第三方库可以简化底层架构的使用:
Lasagne(使用Theano),Skflow(TensorFlow),Keras(Theano,TensorFlow【默认】)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值