《机器学习》慕课版课后习题-第5章_模式识别与机器学习第五章的课后题-CSDN博客

本文链接：https://blog.csdn.net/qq_37402392/article/details/118672925

中国工信出版集团、人民邮电出版社出版的赵卫东、董亮编著的《机器学习》慕课版

第5章文本分析

1.常见的文本数据有哪些来源？

解：可以从公开数据源下载，或者利用自有数据集，或者按照分析需求从网络抓取。

2.文本挖掘的过程由哪几个环节组成？这些环节分别负责哪些工作？

解：一般经过分词、文本特征提取与表示、特征U型安泽、知识或信息挖掘和具体应用等步骤。

分词包括了文本分词、去除停用词、词形归一化等。

文本特征提取与表示包括了词性标注、句法分析、语义分析、特征提取与表示等。

在特征选择后，通过知识提取和挖掘，具体应用到文本分类、情感分析、信息抽取和问答系统等方面。

3.什么是文本的特征？

解：文本特征指的是文本中少量的、具有代表性语义的词语。一组文本特征的集合即可代表整个文本的语义。

4.提取文本特征有哪些常用的方法？结合例子讨论这些方法的应用。

解：文本数据表示常用方法有布尔模型(boolean model)、向量空间模型(vector space model)、概率模型(probabilistic model)和图空间模型(graph space model)等。文本特征选择的方法一般有基于频率的、信息增益、互信息、CHI统计量、WLLR特征选择方法等。

TF-IDF主要用于信息检索数据挖掘。

信息增益是信息论中比较重要的一个计算方法，估算系统中新引入的特征所带来的的信息量，即信息的增加量。

互信息主要应用于情感分析。

卡方统计量主要用于监督式文本分类。

词嵌入可以无监督地学习文本隐层的向量表示。

5.TF-IDF适合提取什么样的文本特征？在使用过程中TF-IDF有哪些问题？

解：TF-IDF适用范围广泛，其建立在这样一个假设之上的：对区别文档最有意义的词语应该是那些在文档中出现频率高，而在整个文档集合的其他文档中出现频率少的词语，所以如果特征空间坐标系取tf词频作为测度，就可以体现同类文本的特点。

TF-IDF算法的缺点包括了：单纯以“词频”衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多(tf不高)；算法中并没有体现出单词的位置信息，对WEB文档而言，权重的计算方法应该体现出HTML的结构特征；IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能。

6.向量空间模型的作用以及常用计算是什么？

解：向量空间模型能把文本表示成由多维特征构成的向量空间中的点，从而通过计算向量之间的距离来判定文档和查询关键词之间的相似程度。常用的相似度计算方案有内积、Dice系数、Jaccard系数和夹角余弦值。

7.分析文本分词的基本思想，并举例说明。

解：中文分词主要包括词的歧义切分和未登录词识别。切分歧义处理包括两部分内容：切分歧义的检测、切分歧义的消解。未登录词大致包含两大类：新涌现的通用词或专业术语等、专有名词。

8.文本分词有哪些常用的算法？举例说明这些算法的应用。

解：中文文本分词主要分为基于词典的分词方法、基于统计的分词方法和基于规则的分词方法。在基于词典的方法中，对于给定的词，只有词典中存在的词语能够被识别，其中最受欢迎的方法是最大匹配法(MM)，这种方法的效果取决于词典的覆盖度，因此随着新词不断出现，这种方法存在明显的缺点。基于统计的方法由于使用了概率或评分机制而非词典对文本进行分词而被广泛应用。基于规则的分词要求计算机理解人类语言，较难，还在试验阶段。

基于词典的分词方法在目前实际应用中较少使用这类方法。

基于统计的分词方法目前比较常用的是以新闻类语料作为统计来源，这类数据的质量较高，虽然具有一定的实用性，但是泛化能力不强，无法应用到细分领域中，例如医疗、化工等具有较多专业术语的细分行业，所以一般需要有针对性的基于不同语料集进行统计。

基于规则的分词方法目前常根据现有文本数据进行规则学习，然后依据所学的规则实现分词。

9.讨论IK Analyzer开源中文分词工具包所用的分词算法，并用这个文具对某文本进行分词。

IK分词使用了“正向迭代最细粒度切分算法”，简单说来就是：Segmenter会逐字识别词元，设输入“中华人民共和国”并且“中”单个字也是字典里的一个词，那么过程是这样的：“中”是词元也是前缀(因为有各种“中”开头的词)，加入词元“中”；继续下一个词“华”，由于“中”是前缀，那么可以识别出“中华”，同时“中华”也是前缀，因此加入“中华”词元，并将其作为前缀继续；接下来继续发现“华人”是词元，“中华人民”是前缀，以此类推……。

10.命名实体识别的基本算法有哪些？举例说明其应用。

解：命名实体识别目前主流还是基于统计的提取方式，例如最大熵、支持向量机、隐马尔可夫模型、条件随机场等，在实践中应用较广的是隐马尔可夫模型条件随机场。

最大熵模型关键是建立有效的特征模板，结合不同层次和粒度的特征建立中文实体语义知识库，所以模板设计是这一模型是否具有通用性的关键。

支持向量机对于特征集的要求比较高，例如使用实体属性、词性、实体间关系等有助于提高识别的准确性，这一方法由于在细分类别上的识别效果不佳，目前应用较少。

条件随机场是一种判别式概率模型，通过分析序列资料实现对目标序列建模，相较于最大熵模型，它引入了上下文信息实现对未知词汇的识别。

隐马尔可夫模型依赖于训练语料的标签标记，它的速度要快一些，所以它更适用于信息检索等实时性要求较高的场景。

基于统计的方法对特征要求较高，对语料库的依赖也比较大，需要从文本中选择对该项任务有影响的各种特征，而可用的大规模通用语料库又比较少，目前大部分细分领域的语料库是基于现有素材经过机器或人工的干预的方式构建的，这部分工作很难避免，也是自然语言处理的基础工作之一。

目前中英文通用命名实体识别(人名、地名、机构名)的F1值都能达到90%以上。命名实体识别的主要难点是表达不规律、缺乏训练语料的开放域命名实体识别，如电影、歌曲名、网名等。

11.什么是语义消歧？说明常用的语义消歧方法的基本思想。

解：语义消歧是自然语言理解中核心的问题，在词义、句义、篇章含义层次都会出现不同的上下文(Context)下语义不同的现象。消歧就是根据上下文来确定对象的真实语义。语义消歧方法分为三类：

基于词典的词义消歧方法主要基于覆盖度实现，即通过计算语义词典中各词与上下文之间合理搭配程度，选择与当前语境最合适的词语。但由于词典中词义的定义通常比较简洁，粒度较粗，造成消歧性能不高。并且，如果词项缺少就会导致问题。

有监督的消歧方法使用已经标记好的语义资料集构建模型，通过建立相似词语的不同特征表示实现去除歧义的目的。

半监督或无监督方法仅需要少量人工或不需要人工标注语料，但依赖于大规模的未标注语料和语料上的句法分析结果。

12.举例说明常用句法分析方法的思想与应用。

解：依存句法(Dependency Parsing， DP)认为句法结构本质上包含词和词之间的依存关系，依存关系是指词与词之间存在修饰关系。通过分析语言单位成分之间的依存关系揭示其句法结构，将输入的文本从序列形式转化为树状结构，从而刻画句子内部词语之间的句法关系。目前主要是数据驱动的依存句法分析，通过对大规模语料进行训练得到模型。这种方式生成的模型比较容易跨领域和语言环境。比较常见的是基于图(graph-based)的分析方法和基于转移(transition-based)的分析方法。

短语结果句法分析的研究基于上下文无关文法(CFG)，CFG主要是对句子成分结构进行建模。一个CFG由一系列规则组成，每个规则给出了语言中的符号可被组织或排列的方法，以及符号和单词构成的字典。

13.语义分析的难点在何处？举例说明。

解：语义分析分为词汇级、句子级和篇章级。

其中词汇级的难点主要在于词义消歧和词向量的表示。

句子级语义分析分别有浅层语义分析、语义角色标注和深度语义分析，其中语义角色包括了角色剪枝、角色识别和角色分类，在角色识别和角色分类过程中，无论是采用基于特征向量的方法，还是基于树核的方法，其目的都是尽可能准确地计算两个对象之间的相似度，这也是其难点；深度语义分析主要面临普通文本到实体/关系谓词之间的映射、面向开发领域的语义分析等两个问题。例如，“小猫钓鱼”中“小猫”和“鱼”的是谓词“钓”的两个论元，“小猫”是施事(governor)，“鱼”是受事(dependent)。每个动词都有自己的论元结构，及物动词有两个论元，而非及物动词只有一个论元，如“孩子吵闹”。

篇章级的难点在于判定子句与子句的篇章语义关系。

14.文本分类常用在什么领域？举例说明。

解：文本分类技术在智能信息处理服务中有着广泛的应用。例如，大部分在线新闻门户网站(如新浪、搜狐、腾讯等)每天都会产生大量新闻文章，如果对这些新闻进行人工整理非常耗时耗力，而自动对这些新闻进行分类，将为新闻归类以及后续的个性化推荐等都提供巨大帮助。互联网还有大量网页、论文、专利和电子图书等文本数据，对其中文本内容进行分类，是实现对这些内容快速浏览与检索的重要基础。此外，许多自然语言分析任务如观点挖掘、垃圾邮件检测等，也都可以看作文本分类或聚类技术的具体应用。

15.如何从一篇比较长的新闻中提取摘要？

解：自动摘要是指从指定文档中抽取要点句子，并对其进行提炼和总结，形成文档摘要。自动摘要一般用于新闻类应用中，生成短新闻的文摘，有助于用户快速了解新闻内容，提升用户体验。自动摘要也可用于搜索引擎中的文本特征提取，例如改进VSM中的关键词权重值。

自动摘要方法分为抽取式摘要、抽象式摘要和生成式摘要等。抽取式方法不对句子进行修改，首先对文档结构中的句子或段落进行权重评价，然后选择权重高的句子或段落进行组合生成摘要。抽象式摘要需要理解文本的语义，对其产生抽象的、解释性的内容，但是由于其实现难度较高，目前较少应用。而生成式方法利用语法、语义分析，确定主题并进行句子规划，基于自然语言生成技术生成新的摘要句子，但是这类方法基本上采用模板式的生成方式，需要建立基础句子特征知识库，拓展性较差，且句式变换较少。所以目前主流自动摘要主要采用基于抽取式的方法。

抽取式摘要的实现过程，首先将原始文本表示为便于后续处理的表达方式，然后由模型对不同的句子进行重要性计算，再根据重要性权重筛选，最后经过内容组织形成摘要。

句子的重要性得分由其组成部分的重要性衡量。由于词汇在文档中的出现频次可以在一定程度上反应其重要性，所以可使用每个句子中出现某词的概率作为该词的得分，通过将所有包含词的得分求和得到句子得分。

16.问答系统的基本原理是什么？其中核心问题如何解决？

解：问答系统在回答用户问题时，首先需要正确理解用户所提的自然语言问题，并抽取其中的关键语义信息，然后在已有语料库、知识库或问答库中通过检索、匹配、推理的手段获取答案并返回给用户。

问答系统的核心问题在于问句理解、文本信息抽取和知识推理。给定用户问题，自动问答首先需要理解用户所提问题。用户问句的语义理解包含语法分析、句法分析、语义分析等多项关键技术，需要从文本的多个维度理解其中包含的语义内容。给定问句语义分析结果，自动问答系统需要在已有语料库、知识库或问答库中匹配相关的信息，并抽取出相应的答案。传统答案抽取构建在浅层语义分析基础之上，采用关键词匹配策略，往往只能处理限定类型的答案，系统的准确率和效率都难以满足实际应用需求。为保证信息匹配以及答案抽取的准确度，需要分析语义单元之间的语义关系，抽取文本中的结构化知识。基于分布式表示的知识表示学习方法能够将实体、概念以及它们之间的语义关系表示为低维空间中的对象(向量、矩阵等)，并通过低维空间中的数值计算完成知识推理任务。虽然这类推理的效果离实用还有距离。但是我们认为这是值得探寻的方法，特别是如何将已有的基于符号表示的逻辑推理与基于分布式表示的数值推理相结合，研究融合符号逻辑和表示学习的知识推理技术，是知识推理任务中的关键科学问题。

17.举例说明如何分析电商评论、论坛帖子、微博用户帖子中用户的情感。

解：情感分析是对文本内容所表达出来的主观感情色彩进行挖掘和分析的过程，也称为意见挖掘或观点挖掘。

文本情感分析方法有基于词典的方法、机器学习方法、概念级技术等几类。其中基于词典的方法是利用文本中出现的影响词(如“心”，“难过”等)来影响分类。词典中词项还同时具有表征情感强度的词(如“非常”，“稍微”等)，用于表示情感影响词的强弱。同时还要考虑否定词(如“没有”，“不是”等)，例如“这件衣服没有想象中那么漂亮”，虽然有“漂亮”一次，但是其前方还有否定词“没有”，所以基于词典的方法在这种情况下需要增加窗口分析。总的来说，由于词典的方法比较生硬，在处理具有多种含义的情感词，效果较差，而且还要维护庞大的词典。

18.讨论如何从事件报道中抽取相关的信息。

解：事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件，并以结构化呈现给用户。常用的事件抽取方法包括模式匹配方法和机器学习方法，其中模式匹配方法是指对于某种类型时间的识别和抽取是在一些模式的指导下进行的，采用各种模式匹配算法将带抽取的时间和已知的模式进行匹配。模式匹配方法由两个基本步骤组成：模式获取和事件抽取。机器学习方法其实就是一种分类方法，它是建立在统计模型的方法上，将事件类型与事件元的识别转换为分类问题。这种方法主要是选择合适的特征值与分类器来完成相关的分类。