自然语言处理概述

一.自然语言处理
开源项目
选择题目(ACL会议论文集)
1.依存句法分析(关键技术)
1.>基本思想:词汇之间由二元非对称关系连接
2.>方法
基于语法驱动
基于数据驱动
A.基于动态规划
直接对图(依存树)分解
穷尽的、全局的整棵依存树 受限的
B.基于决策
将依存分析过程分解成决策序列 
贪婪的、局部的一个词对 丰富的
C.基于融合
融合AB的优点
D.扩展性工作
Web海量数据、领域自适应、长距离的依存关系

2.信息抽取(实体为中心的事实性信息->结构化数据)
1.>文本信息抽取
2.>自然语言文本信息抽取
A.  实体识别、
开放域实体识别  
思路:网页结构、上下文
方法:Query Log、Web Page、融合多个数据源
B.实体消除
评价方法:平均准确度MAP
基于聚类:所有实体指称项聚类、同一类指称项具有相似的上下文(选取特征)
词袋模型(周边词、空间向量模型计算)
语义特征(语义信息、SVD分解、余弦相似度计算)
社会化网络(社会关系、网页链接特征)
维基百科(相似链接->语义相关度)(结构化关联语义核的实体相似度)
多源异构知识(Wikipedia Wordnet web网页库)
用WePS数据集进行测试  
基于链接:
候选实体的发现(维基百科、上下文)、
链接(相似度最大,单一实体、协同实体)
方法:词袋子模型计算相似度
C.关系抽取
传统:统计机器学习(基于特征向量>速度快、基于核函数>结构化)
开放域:维基百科、查询日志、网页

3.观点挖掘和倾向性分析(主观性信息)
1>方法
词阶段:
WordNet相似性扩展
句子阶段:
Corpus-based(监督)(特征学习、上下文影响、上下文+标记间冗余)
Lexicon-based(非监督)(词倾向性->句子倾向性)
文章阶段:
基于句子划分
基于主题划分
其他阶段:
观点分类、转换
观点挖掘
观点检索
资源和评估

4.问答系统
1.>问答式检索系统
检索方法:
信息检索+信息抽取->简单易于实现、词间没有关系
信息检索+模式匹配->特定问题回答、无法实现推理
信息检索+自然语言处理技术->实现推理、浅层语义分析
基于统计翻译模型->依赖训练语料
2.>社区问答系统(关键问题分类)
回答新提交问题相关
相似问题检索
核心:计算两个问题的相似度
方法:
语言模型
基于词的翻译模型
基于短语的翻译模型
答案质量评估
方法:
采用统计机器学习方法(分类、回归)
核心:
选取特征

5.神经网络与深度学习
1.>难点
参数(多、下层难调、解释困难)、非凸优化问题(局部最优解)影响迭代
2.>需求
资源多、数据多、算法收敛性要高
3.>数学知识
向量(全1向量、one-hot向量)、范数、矩阵、导数、向量导数
常用函数(指示函数、多项式函数、指数函数、对数函数、
logistics(实数映射到(0,1)区间)、
softmax函数(多个标量映射到一个概率分布)、

4.>机器学习
主流机器学习算法:基于统计的方法
决策函数(损失函数判断好坏)
过拟合(数据少、噪音数据造成,结构风险最小化原则解决)
算法类型:
有监督学习:
回归:输出连续
分类:输出离散
无监督学习:
参数估计:
梯度下降法
批量梯度下降法(风险函数最小值)
随机梯度下降法(或增量)
学习率设置:
动量法:增加稳定性
AdaGrad:迭代次数增加,梯度缩小
AdaDelta:累积历史的梯度信息
线性回归:
平方损失函数
最小二乘法估计
线性分类
Logistic回归
Softmax回归
感知器:
神经网络只有一层
最简单的人工神经网络,只有一个神经元
激活函数:
sigmoid型函数(logistic函数、tanh函数)、非线性斜面函数
人工神经网络:

前馈神经网络(输入、输出维数固定)
多层感知器、单向传播、有向无环图表示
反向传播算法
训练过程:
(1)前馈计算每一层的状态和激活值
(2)反向传播计算每一层的误差
(3)计算每一层参数的偏导值,更新参数
卷积神经网络
特性:
局部链接,权值共享,时、空的次采样
默认窄卷积,不补零
卷积层减少连接数、子采样层减少特征映射的神经元个数
循环神经网络(处理任意长度的序列)
梯度爆炸或消失解决方案:
长短时记忆神经网络(引入记忆单元)
最新进展:
控制+计算+记忆
传统神经网络
记忆<-->控制+计算
神经图灵机
记忆神经网络
动态记忆神经网络
记忆<-->控制<-->计算
神经随机访问机
记忆结构
栈、队列
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值