自然语言处理 概览理解 NLP specialization - Supervised ML

自然语言处理 概览理解 NLP specialization - Supervised ML

Remember that understanding the data is one of the most critical steps in Data Science

自然语言处理可以实现语义识别,情感识别,文本翻译等等功能,当然最近情况下最火的便是ChatGBT的人工智能对话机器人。本人正在硕博的过渡期,深知新技术,新技能对于个人发展或者人类进步的重要性,象牙塔里的学习经历总不是非常的前沿和及时。因此在过渡期的三四个月内,我决定尝试去接触这些新技术和新技能,来充实自己,并开始认识人工智能的发展前景以及状况。

总体来说,自然语言识别包含一下几步:文本转换,模型构建,算法训练,测试验证。简而言之,我们需要将文本数据转义成计算机能识别的矩阵数值等等(word embedding)。其中文本转换有非常多的方式和技术,其中一种便是对出现次数做叠加,生成的数据叫做频次矩阵(frequency dictionary)。 然后根据所生成的数据,选择合适的机器学习方法来进行模型的训练。这些机器学习方法比如说逻辑回归,朴素贝叶斯, 近似最近邻(ANN)也会将一些资源放在我的CSDN中,比如说我上课附带的notebook练习题以及部分的答案。)等等方法去寻找特征。最后进行数据集的训练并且得到最终的模型参数。最后就是拿到测试集进行模型验证和测试,并找到模型中的问题和bug,再予以解决。

数据预处理

理解数据永远是数据科学最重要的一步,数据的预处理根据需求的不同重要包含以下几个步骤:

  • 检查并去除脏数据 data cleaning
  • 去除连接符或者停顿符 stop word
  • 去除不重要的标点符号 punctuation
  • 找出重要词语的词根 stemming
  • 大小写识别统一 lower casing

数据处理的方法并不是一成不变的,主要用到一些正则表达式识别,字典数据集的匹配,词语和词根匹配等等方面,这方面需要具体情况具体分析。但是最终是将特征信息进行提取(feature extraction),使其可以被识别。

逻辑回归

在词语情感识别(sentiment analysis)中,如果仅仅区分好和坏,那么简单的逻辑回归便可以实现。逻辑回归是一种非常经典的监督机器学习算法,其提取训练集中的特性,并通过模型系统预测出结果,并和实际结果相比较计算损失,也就是Loss,最后通过最速下降的方式进行迭代求出模型最优的参数。

其sigmoid函数可以将向量空间中的样本映射到有限的正负值,通过调整theta在各个向量空间中的值来调整模型,也就是说,theta就是模型,模型就是theta。

11111

朴素贝叶斯 (Naive Bayes)

朴素一词是源于特征不相关的假设,也就是我们假设不同的语义特征之间是不相关的,这将解耦后验概率的计算,得到一个相对正确的结果。

贝叶斯定律是在得知一定的先验概率,也就是告诉你一定的基本信息并估算出所研究事件发生的概率后,再根据训练集的特征数据,对先验概率进行一个修正,最后根据这两个概率的复合结果,来最终给出所研究事件发生的较准确的概率。

其包含以下几步:

  • 得到标记的数据集 (数据标注,监督学习的特点)
  • 对文本数据进行预处理 (对数据噪声,坏点进行清除)
  • 计算频次对应矩阵 (提取训练集中的特征)
  • 得到条件概率 (求出每个单词的(积极/消极)条件概率的比)
  • 计算系统的log似然值 (通过乘积或者求和的方式进行句子语义判断)
  • 计算log先验值 (这个适用于计算先验概率使用)

在这里插入图片描述

近似最邻近 (K-NN K nearest neighbor)

该算法通过计算和分析特征的距离来找到最相邻的邻居,并最后估计出一些近似的结果。比如说在中法翻译的应用上,通过对特征进行分析,找到中文某次在法文中的对应翻译问题,我们可以近似地找到词义相近的多个邻居,在各个邻居之间进行选择。但是对词库进行遍历会消耗大量的资源,效率很低。为了解决这个问题,我们用LSH局部敏感哈希算法来加速搜索的速度。LSH的原理便是将特征相近的词语装在同一个桶(bucket)里面,这样算法在寻找某个值得时候就可以计算其哈希值得方式快速找到存放的桶,并通过这样的方式来加速搜索。

333

本次博客先进行一个简单总结,之后每学习完一周就会有一个总结,并且将我的理解写在博客中,供大家查看,我也会将一些资源放在我的CSDN中,比如说我上课附带的notebook练习题以及部分的答案。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Volavion

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值