Coursera课程自然语言处理(NLP) 借助分类和词向量做自然语言处理 deeplearning.ai

最新推荐文章于 2022-10-17 13:43:43 发布

tsuiraku

最新推荐文章于 2022-10-17 13:43:43 发布

阅读量325

点赞数 1

分类专栏： deeplearning.ai 文章标签： python 自然语言处理机器学习深度学习人工智能

本文链接：https://blog.csdn.net/m0_49337600/article/details/108185916

版权

本课程介绍了如何使用逻辑回归和朴素贝叶斯进行情感分析，通过词嵌入技术理解和翻译单词。课程涵盖了从预处理文本到训练和测试模型的全过程，并探讨了这些方法在自然语言处理中的应用。

摘要由CSDN通过智能技术生成

在这里插入图片描述

借助分类和词向量做自然语言处理

欢迎来到由 DeepLearning.ai提供的自然语言处理专项的第一门课程。这门课由Younes Bensouda Mourri，Łukasz Kaiser和Eddy Shyu讲授。

借助分类和词向量做自然语言处理
- 目录
课程简介
- 逻辑回归
- 朴素贝叶斯
- 条件概率
  - 贝叶斯法则
  - 拉普拉斯平滑
  - 概率比值
  - [Likelihood times prior](#Likelihood times prior)
  - [Log Likelihood + log prior](#Log Likelihood + log prior)
  - 训练朴素贝叶斯模型
  - 测试朴素贝叶斯模型
  - 朴素贝叶斯模型的应用
  - 朴素贝叶斯错误的来源
词嵌入

课程简介

第一门课程的内容简介

In Course 1 of the Natural Language Processing Specialization, offered by deeplearning.ai, you will:
a) Perform sentiment analysis of tweets using logistic regression and then naïve Bayes,
b) Use vector space models to discover relationships between words and use PCA to reduce the dimensionality of the vector space and visualize those relationships, and
c) Write a simple English to French translation algorithm using pre-computed word embeddings and locality sensitive hashing to relate words via approximate k-nearest neighbor search.

Please make sure that you’re comfortable programming in Python and have a basic knowledge of machine learning, matrix multiplications, and conditional probability.

By the end of this Specialization, you will have designed NLP applications that perform question-answering and sentiment analysis, created tools to translate languages and summarize text, and even built a chatbot!

This Specialization is designed and taught by two experts in NLP, machine learning, and deep learning. Younes Bensouda Mourri is an Instructor of AI at Stanford University who also helped build the Deep Learning Specialization. Łukasz Kaiser is a Staff Research Scientist at Google Brain and the co-author of Tensorflow, the Tensor2Tensor and Trax libraries, and the Transformer paper.

逻辑回归

有监督学习 & 情感分析

在有监督机器学习中，你需要有输入特征 $X$ 以及特征的标签 $Y$
目标是尽可能地减小损失值
将特征 $X$ 输入给 $prediction\space function$ ，将实现特征 $X$ 输出为预测标签 $\hat{Y}$
当标签 $Y$ 和预测值 $\hat{Y}$ 差异值较小时，可以实现从特征到标签的最佳映射
损失函数 $C o s t$ 计算 $\hat{Y}$ 和 $Y$ 之间的差异
通过计算的损失值来更新参数，迭代重复至损失值为一个较理想的值
逻辑回归的函数为 $s i g m o i d$ 函数
情感分析的有监督机器学习分类问题例子：

目的是辨别 $t w e e t$ 文本中的语句是积极的还是消极的情感

建立逻辑回归分类器模型，我们分为3个步骤：提取特征，训练，预测：

处理原 $t w e e t$ 文本为训练数据集并且提取有用的特征

$t w e e t$ 文本中带有积极正面情感标记为1，带有消极负面情感标记为0

训练逻辑回归分类器模型并减小损失值

预测

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0invH1yu-1598175380213)(Images/02.png)]

特征提取

稀疏矩阵表示

为了将一个文本转化为向量表示，我们需要建立一个词汇表 $(V o c a b u l a r y)$ ，然后能够将任何文本或则 $t w e e t$ 转化为数组矩阵
词汇表 $V$ 将会以列表形式存储 $t w e e t$ 中的不同单词
利用稀疏矩阵存储，在 $t w e e t$ 中出现的单词词汇表 $V$ 将会赋予 $1$ ，而未出现的单词赋予 $0$
稀疏矩阵存在的问题:
逻辑回归模型将会学习 $N + 1$ 个参数， $N$ 是词汇表 $V$ 的大小
耗费巨大的训练时间
耗费巨大的预测时间
1. 分别统计消极负面和积极正面的频率
从 $t w e e t$ 语料库中不同的单词建立词汇库 $V$
建立两个类别，一个类别是消极负面情感，另一个类别是积极正面情感
在词汇表 $V$ 中计算积极单词的频率，需要统计它在积极正面的 $t w e e t$ 文本中出现的次数，计算消极单词的频率一致
实际上在编码时，此表是一个字典，将单词及其对应的类别映射到频率，例如单词

最低0.47元/天解锁文章

tsuiraku

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Coursera课程自然语言处理(NLP) 借助分类和词向量做自然语言处理 deeplearning.ai

借助分类和词向量做自然语言处理欢迎来到由 DeepLearning.ai提供的自然语言处理专项的第一门课程。这门课由Younes Bensouda Mourri，Łukasz Kaiser和Eddy Shyu讲授。目录借助分类和词向量做自然语言处理目录课程简介逻辑回归有监督学习&情感分析特征提取预处理训练逻辑回归模型测试逻辑回归模型损失函数朴素贝叶斯条件概率贝叶斯法则拉普拉斯平滑概率比值[Likelihood times prior.
复制链接

扫一扫