文本处理的应用和编码文本历史

文本处理的应用和编码文本历史

文本处理的应用有:
一些常见的文本处理/NLP 应用:
• 信息检索
• 信息提取/文本挖掘
• 文本分类
• 自动总结
• NL 生成
• 机器翻译

应用:IR
信息检索(IR):关注开发算法和从文本集中检索相关文档的模型。
•文本集合 = 一些“文档”集
最初,数百/千电子存储文件,例如期刊论文摘要;现在,WWW上有数十亿页
• 查询:用户指示她/他想要什么
通常,只有 2 或 3 个词
• 如何确定哪些文档是相关的?
如何确定一种方法是否比另一种更好?
• 仍有许多工作留给用户:
选择哪些返回的文档是相关的任务,提取相关信息的任务

应用:IE
IR 与信息提取 (IE) 形成对比。
IE 识别文档中的特定信息,使其可用到后续的自动化流程
它必须提前确定要提取的类型信息
提取的信息通常包括提及(1)实体(例如组织、个人、地点)和 (2)关系(例如,人员受雇于组织)
它识别的信息可以是:
提取并存储在结构化记录中,例如数据库系统(有时称为“知识库人口”), 作为嵌入标记存储在文档本身中

应用:文本分类
• 任务:自动将文本分配给不同的类别
例如对于电子邮件 - 分配到类别:垃圾与非垃圾
例如对于报纸文章——分配给类别:体育 vs. 政治vs. 其他
例如对于产品评论——分配给类别:正面 vs. 负面 vs. 中性<

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值