NLP(2)问答系统intro

基于搜索的问答系统

Question从知识库中寻找相似度最高的问题,返回对应问题的答案

对于问题,首先进行分词,然后预处理:
1)拼写检查
2)寻找单词原型
3)stop words
4)words filter
5)同义词
然后文本的表示,将文本转换成向量的形式,结构化的数据,数学中的公式,文本方式:

  1. 0,1,1,… Boolean vector
  2. const vector
  3. tf-if 形式
  4. word vector
    5)seq2seq

然后给定向量计算相似度
1)欧氏距离
2)cos distance

接着进行过滤,根据相似度排序 返回结果

现在的问答系统核心点在于文本的表示和相似度的计算

知识图谱的核心点在于实体抽取和关系抽取

文本处理的流程

原始文本->分词->清洗->Normalization ->feature extraction ->Modeling

清洗包括 :
1)无用的标签 如
2)特殊符号 !α
3)停用词
4)大写转小写

标准化包括 stemming & Lemmazation

Word Sementation Tools

Jieba
SnowNLP
LTP
HanNLP
FudanNLP

分词工具底层

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值