NLP
知道不_zkl
这个作者很懒,什么都没留下…
展开
-
NLP基础理论与实践第一次作业
1,数据集 数据集:中、英文数据集各一份 中文数据集:THUCNews THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud 英文数据集:IMDB数据集 Sentiment Analysis THUCNews 数据集是根据新浪新闻RSS订阅频道2005年-2011年的历史数据筛选过滤生成,包含74万新闻文档(2.19GB),均为UTF-8纯文本...原创 2019-06-21 20:41:21 · 190 阅读 · 0 评论 -
NLP学习-day02 基本文本处理技能
1,基本文本处理技能 1.1 分词的概念 最大匹配法,最大匹配是指以词典为依据的,去词典罪当单词的第一次取字数量的扫描串。在词典中进行扫描(为提升扫描效率,还可以根据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描,下面以“我们在野生动物园玩’'为例说明一下这几种匹配方法。 分词的正向最大 正向即从前往后取词,每次减一个字,知道词典命中或剩下1个单字。 正向即从前往后取词,从7->...原创 2019-06-24 19:33:41 · 346 阅读 · 0 评论 -
任务3-自然语言处理
【任务3-自然语言处理】时长:2天 Task3 特征选择 (2 days) 1,TF-IDF原理 TF-IDF 是Term Frequency - Inverse Document Frequency 的缩写,即“词频-逆文本频率”,它由两部分组成,TF和IDF, TF就是词频,文本向量化也就是做了文本中各个词的出现频率统计,并作为文本特征。 概括的来说,IDF反应了一个词在所有文本中出现的频率,...原创 2019-06-27 20:48:45 · 241 阅读 · 0 评论 -
任务4 自然语言处理
任务4 自然语言处理 朴素贝叶斯 首先,要明白贝叶斯统计方式与统计学中的频率概念是不同,从频率的角度出发,即假定数据遵循某种分布,我们的目标是确定该分布的几个参数,在某个固定的环境一下做模型。而贝叶斯则是根据实际的推理方式来建模。我们拿到的数据,来更新模型对某事件即将发生的可能性的预测结果。在贝叶斯统计学中,我们使用数据来描述模型,而不是使用模型来描述数据。 贝叶斯定理旨在计算P(A|B)的值,也...原创 2019-06-30 20:07:04 · 1578 阅读 · 0 评论