读宗成庆老师著统计自然语言处理书笔记整理（1）

最新推荐文章于 2024-06-29 22:11:22 发布

data_bigbing

最新推荐文章于 2024-06-29 22:11:22 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/qq_41795577/article/details/100622928

版权

本文是宗成庆老师《统计自然语言处理》读书笔记的第一部分，主要涵盖研究内容如机器翻译、问答系统、信息抽取等，并深入讲解概率论、信息论基础，包括熵、互信息、交叉熵等概念，以及支持向量机的基础知识，如线性分类和核函数的作用。

摘要由CSDN通过智能技术生成

自然语言处理（natural language processing,NLP)。

（一）研究的内容：

1、机器翻译：实现一种语言到另一种语言的自动翻译。
2、自动文摘：将原文档的主要内容和含义自动归纳、提炼出来，形成摘要或缩写。
3、信息检索：也称情报检索，就是利用计算机系统从海量文档中找到符合用户需要的相关文档。
4、文档分类：也称文本分类或信息分类，就是利用计算机系用对大量的文档按照一定的分类标准（例如根据主题或内容划分等）实现自动归类。近年来情感分类技术成为本领域研究的热点，公司可以利用该技术了解客户对产品的评价，政府部门可以通过分析网民对某一事件、政策法规或社会现象的评论，实时了解百姓的态度
5、问答系统：通过计算机系统对用户提出的问题的理解，利用自动推理的手段，在有关知识资源仲自动求解答案并作出相应的问答。问答技术有时与语音技术和多模态输入输出技术以及人机交互技术等技术相结合，构成人机对话系统。
6、信息过滤：通过计算机系统自动识别和过滤那些满足特定条件的文档信息，通常指网络有害信息的自动识别和过滤，主要用于信息安全和防护、网络内容管理等。
7、信息抽取：指从文本中抽取特定的时间或事实信息，有时候又称事件抽取，例如从时事新闻报道中抽取出某一恐怖事件的基本信息等。信息抽取与信息检索不同，信息抽取直接从自然语言文本中抽取信息框架，一般是用户感兴趣的事实信息，而信息检索主要是从海量文档集合中找到与用户需求相关的文档列表。
8、文本挖掘：又称数据挖掘，从文本（多指网络文本）中获取高质量信息的过程。文本挖掘技术一般涉及文本分类、文本聚类、概念或实体抽取、粒度分