自然语言处理概述

最新推荐文章于 2022-07-01 14:57:30 发布

buptzy

最新推荐文章于 2022-07-01 14:57:30 发布

阅读量489

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/buptzy/article/details/79842091

版权

自然语言处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一.自然语言处理
开源项目
选择题目（ACL会议论文集）
1.依存句法分析（关键技术）
1.>基本思想：词汇之间由二元非对称关系连接
2.>方法
基于语法驱动
基于数据驱动
A.基于动态规划
直接对图（依存树）分解
穷尽的、全局的整棵依存树受限的
B.基于决策
将依存分析过程分解成决策序列
贪婪的、局部的一个词对丰富的
C.基于融合
融合AB的优点
D.扩展性工作
Web海量数据、领域自适应、长距离的依存关系

2.信息抽取（实体为中心的事实性信息->结构化数据）
1.>文本信息抽取
2.>自然语言文本信息抽取
A. 实体识别、
开放域实体识别
思路：网页结构、上下文
方法：Query Log、Web Page、融合多个数据源
B.实体消除
评价方法：平均准确度MAP
基于聚类：所有实体指称项聚类、同一类指称项具有相似的上下文（选取特征）
词袋模型（周边词、空间向量模型计算）
语义特征（语义信息、SVD分解、余弦相似度计算）
社会化网络（社会关系、网页链接特征）
维基百科（相似链接->语义相关度）（结构化关联语义核的实体相似度）
多源异构知识（Wikipedia Wordnet web网页库）
用WePS数据集进行测试
基于链接：
候选实体的发现（维基百科、上下文）、
链接（相似度最大，单一实体、协同实体）
方法：词袋子模型计算相似度
C.关系抽取
传统：统计机器学习（基于特征向量>速度快、基于核函数>结构化）
开放域：维基百科、查询日志、网页

3.观点挖掘和倾向性分析（主观性信息）
1>方法
词阶段：
WordNet相似性扩展
句子阶段：
Corpus-based（监督）（特征学习、上下文影响、上下文+标记间冗余）
Lexicon-based（非监督）（词倾向性->句子倾向性）
文章阶段：
基于句子划分
基于主题划分
其他阶段：
观点分类、转换
观点挖掘
观点检索
资源和评估

4.问答系统
1.>问答式检索系统
检索方法：
信息检索+信息抽取->简单易于实现、词间没有关系
信息检索+模式匹配->特定问题回答、无法实现推理
信息检索+自然语言处理技术->实现推理、浅层语义分析
基于统计翻译模型->依赖训练语料
2.>社区问答系统（关键问题分类）
回答新提交问题相关
相似问题检索
核心：计算两个问题的相似度
方法：
语言模型
基于词的翻译模型
基于短语的翻译模型
答案质量评估
方法：
采用统计机器学习方法（分类、回归）
核心：
选取特征

5.神经网络与深度学习
1.>难点
参数（多、下层难调、解释困难）、非凸优化问题（局部最优解）影响迭代
2.>需求
资源多、数据多、算法收敛性要高
3.>数学知识
向量（全1向量、one-hot向量）、范数、矩阵、导数、向量导数
常用函数（指示函数、多项式函数、指数函数、对数函数、
logistics（实数映射到（0，1）区间）、
softmax函数（多个标量映射到一个概率分布）、
）
4.>机器学习
主流机器学习算法：基于统计的方法
决策函数（损失函数判断好坏）
过拟合（数据少、噪音数据造成，结构风险最小化原则解决）
算法类型：
有监督学习：
回归：输出连续
分类：输出离散
无监督学习：
参数估计：
梯度下降法
批量梯度下降法（风险函数最小值）
随机梯度下降法（或增量）
学习率设置：
动量法：增加稳定性
AdaGrad：迭代次数增加，梯度缩小
AdaDelta：累积历史的梯度信息
线性回归：
平方损失函数
最小二乘法估计
线性分类
Logistic回归
Softmax回归
感知器：
神经网络只有一层
最简单的人工神经网络，只有一个神经元
激活函数：
sigmoid型函数（logistic函数、tanh函数）、非线性斜面函数
人工神经网络：

前馈神经网络（输入、输出维数固定）
多层感知器、单向传播、有向无环图表示
反向传播算法
训练过程：
（1）前馈计算每一层的状态和激活值
（2）反向传播计算每一层的误差
（3）计算每一层参数的偏导值，更新参数
卷积神经网络
特性：
局部链接，权值共享，时、空的次采样
默认窄卷积，不补零
卷积层减少连接数、子采样层减少特征映射的神经元个数
循环神经网络（处理任意长度的序列）
梯度爆炸或消失解决方案：
长短时记忆神经网络（引入记忆单元）
最新进展：
控制+计算+记忆
传统神经网络
记忆<-->控制+计算
神经图灵机
记忆神经网络
动态记忆神经网络
记忆<-->控制<-->计算
神经随机访问机
记忆结构
栈、队列

buptzy

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理概述

一.自然语言处理开源项目选择题目（ACL会议论文集） 1.依存句法分析（关键技术） 1.&gt;基本思想：词汇之间由二元非对称关系连接 2.&gt;方法基于语法驱动基于数据驱动 A.基于动态规划直接对图（依存树）分解穷尽的、全局的整棵依存树受限的 B.基于决策将依存分析过程分解成决策序列贪婪的、局部的一个词对丰富...
复制链接

扫一扫