自然语言处理46练习填空

Doc2Vec包括两种模型:分布式__ 记忆_模型和分布式__词袋;BOW_模型。 

jieba分词支持精确模式、___模式、_搜索引擎__模式三种分词模式。

TF-IDF算法由_词频__、__逆文档频率_两部分构成。

常见的基于统计分词的模型包括n元语法模型、隐马尔科夫;HMM模型、条件随机场;CRF模型等。

常见的语料预处理方法包括:去除数据中非文本部分、中文分词、__词性标注_、__去停用词_。

常用的无监督关键词提取算法包括_TF-IDF;词频-逆文档频率__算法、TextRank___算法、主题模型算法等。

常用的中文分词技术包括基于__规则_分词和基于__统计_分词两种。

词性标注主要有基于_规则__标注和基于__统计_标注两种。

机器学习算法进行文本分类或聚类的步骤包括数据准备、__特征提取_、__模型选择与训练_、模型测试、模型融合。

基于规则的中文分词常常会遇到_歧义__问题和_未登录词__问题。

基于规则分词的方法包括_正向最大匹配法__、__逆向最大匹配法_、双向最大匹配法。

基于统计的标注方法主要包括基于__最大熵_的词性标注、基于_统计最大概率输出__的词性标注、基于HMM的词性标注。

解决数据稀疏问题常用的方法有加1平滑、_古德-图灵;Good-Turing__平滑、__线性插值_平滑等。

文本分类一般分为基于__知识工程_的分类方法、基于__机器学习_的分类方法。 

文本挖掘中的聚类算法主要包括基于_划分__的聚类算法;基于_层次__的聚类算法;基于__密度_的聚类算法;基于__网格_的聚类算法;基于模型的聚类算法;基于模糊的聚类算法。

文本向量化中,分布式表示常用的方法有基于矩阵的分布表示、基于_聚类__的分布表示和基于__神经网络;ANN_的分布表示。

文本向量化中,离散表示常用的方法有__词集_模型和_词袋;BOW__模型。 

文本向量化主要有__离散_表示和_分布式__表示两种表示方法。 

以语料库结构进行划分,可将语料库分为_平衡结构语料库__、_自然随机结构语料库__。

以语料库用途进行划分,可将语料库分为__通用语料库__、_专用语料库__。

以语料选取时间进行划分,可将语料库分为_共时语料库__、_历时语料库__。

语料库构建的原则包括:代表性、_结构性__、_平衡性__和规模性。

在正则表达式中,在整个字符串内查找符合对应模式的字符串并进行匹配时使用函数__match;Match;MATCH_,找到所有匹配的字符串,并将其替换成指定的字符串时使用函数_sub;Sub;SUB__。

中文NLP流程由语料获取、_语料预处理___、_文本向量化___、模型构建、模型训练和模型评价6部分组成。 

中文歧义问题主要包括__交集型切分歧义_、__组合型切分歧义_两大类。

试给出新闻文本聚类的流程。

正确答案:

(1)数据读取:读取文件列表中的新闻文本并给定标签,划分训练集与测试集,读入的每条新闻作为一行,方便后续数据处理及词频矩阵的转化。
(2)文本预处理:每个新闻文本进行jieba分词和去除停用词处理,去除文本中无用的停用词,降低处理维度,加快计算速度。
(3)特征提取:计算TF-IDF值,将文本转为词频矩阵。
(4)聚类:根据导入数据类型标签个数,从而定义分类个数,导入训练数据集后训练模型,并保存聚类模型。
(5)模型评价:使用处理好的测试集进行预测,对比真实值与预测值,获得准确率并进行结果分析。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值