中文信息处理
文章平均质量分 70
木子一个Lee
你好
展开
-
中文信息处理实验8——基于逻辑斯蒂回归模型的文本分类
实验数据采用htl_del_4000宾馆情感分析数据进行处理,所有数据已按照情感极性划分为褒(pos)贬(neg)两类,各2000篇,每个文本文件为一篇文章,实验数据需要先进行分词,分词方法不限。对数据集进行划分,对同一批数据进行不同的文本表示方法,输出分类准确率、召回率和F1值,比较两类表示方法的效果差异。4.任意输入一句话,能够对其进行基于Word2Vec的向量表示,并进行分类输出其类别标签。任意输入一句话,能够对其进行基于Word2Vec的向量表示,并进行分类输出其类别标签。原创 2023-01-01 11:35:20 · 1161 阅读 · 2 评论 -
中文信息处理实验7——基于Word2Vec的文本表示
7)对给定语料库内的所有的句子,将其分词后从(5)中已经训练完成的模型中获取其所有词汇的词向量表示。利用实验五的方法,计算句子S中每个词汇wi的tfidf值并进行归一化(归一化可使用公式Eq.1) ,以该归一化tfidf值作为wi的权重对句子的所有词向量。实验数据采用htl_del_4000宾馆情感分析数据进行处理,所有数据已按照情感极性划分为褒(pos)贬(neg)两类,各2000篇,每个文本文件为一篇文章,实验数据需要先进行分词,分词方法不限。表示进行加权求和,作为该句子的向量表示(公式Eq.2)。原创 2023-01-01 11:23:10 · 1422 阅读 · 0 评论 -
中文信息处理实验6——文本表示
利用实验五中构建的特征集,对任意输入的文本序列,能将其转变为以TFIDF为权重的向量表示,并从实验6.2的文本文章中依照余弦相似度给出相似度最高的三篇文章并输出其相似度的值。对于一个带标签的文章sen,遍历特征词表,若sen含有第i个特征词,则计算该词的TFIDF值作为向量对应维度的权重值,否则特征权重为0。依据实验五得到文本的表示特征,从文件中读取特征词集,构建向量空间模型,计算每个文章表示向量表示中每一个特征维度的权重。“cn stopwords.txt”,可用于数据预处理中的去除停用词。原创 2023-01-01 11:13:17 · 1230 阅读 · 0 评论 -
中文信息处理实验5——文本特征抽取
其中P(c)表示ci类文档在语料中出现的概率,Pt表示语料中包含特征词条t的文档的概率,P(c, l 八)表示文档包含特征词条t时属于ci类的条件概率,P()表示语料中不包含特征词条t的文档的概率,P(c, l)表示文档不包含特征词条t时属于ci类的条件概率,m表示文档类别数。2)对候选特征词集S中的所有词汇w,计算其特征得分s(w),计算方法分别使用文档频率、互信息、信息增益三种方法实现。3)依据候选特征词集S中词汇w的特征得分s(w)进行排序,选择得分最大的前N=1000个词作为文本的表示特征集。原创 2023-01-01 11:05:55 · 1638 阅读 · 9 评论 -
中文信息处理3+4——基于HMM与字标注的分词程序特征抽取及文本表示方法
加深对汉语文本信息处理基础理论及方法的认识和了解,锻炼和提高分析问题、解决问题的能力。通过对具体项目的任务分析、数据准备、算法设计和编码实现以及测试评价几个环节的练习,基本掌握实现一个自然语言处理系统的基本过程。4个构词位置标记为:B:词首,M:词中,E:词尾,S:单独成词。2.将语料分成测试集与训练集(一般为4:1的比例)。在训练集上统计估算初始概率、发射概率、转移概率所需的参数。3.利用Viterbi算法, 实现基于HMM的字标注的分词程序。2.训练集、测试集、参数。原创 2023-01-01 10:53:47 · 1427 阅读 · 0 评论 -
中文信息处理实验2——基于词表的分词
加深对汉语文本信息处理基础理论及方法的认识和了解,锻炼和提高分析问题、解决问题的能力。通过对具体项目的任务分析、数据准备、算法设计和编码实现以及测试评价几个环节的练习,基本掌握实现一个自然语言处理系统的基本过程。3.使用结巴、ICTCLAS分词系统、哈工大的LTP平台等分词功能,对人民日报语分词,然后对比自己的分词结果。2.编写一个评价程序,自动计算分词结果的准确率、召回率、F测度。1.基于第一次实验得到的词表,编写一个正向最大匹配分词程序。1.正向最大匹配分词程序。原创 2023-01-01 10:39:24 · 1434 阅读 · 0 评论 -
中文信息处理实验1——针对人民日报语料编写程序
加深对汉语文本信息处理基础理论及方法的认识和了解,锻炼和提高分析问题、解决问题的能力。通过对具体项目的任务分析、数据准备、算法设计和编码实现以及测试评价几个环节的练习,基本掌握实现一个自然语言处理系统的基本过程。4.去除语料中的分词和词性标记,形成未加工的语料(原始文本)3.统计每个词出现的次数,并按照词频从小到大排序。2.统计总词数、不同词的个数并输出。2.总词数,不同词的个数。原创 2023-01-01 10:35:03 · 1381 阅读 · 0 评论