![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP学习笔记
NLP学习笔记
Little_Yuu
Life must be pythonic.
展开
-
NLP自然语言处理——文本分类之数据集汇总
文本分类数据集汇总名词解释一、“达观杯”文本智能处理挑战赛数据集1、数据格式2、测试集:test_set.csv数据集二数据集三参考文献名词解释(1)脱敏处理一、“达观杯”文本智能处理挑战赛数据集“达观杯”文本智能处理挑战赛数据集包含了两个文件,分别是:train_set.csv和test_set.csv。以下是关于这两个数据集的介绍1、数据格式2、测试集:test_set.csv数...原创 2020-06-28 22:51:45 · 6567 阅读 · 0 评论 -
python填坑系列之ERNIE的最大文本长度
paddlehub的预训练模型ERNIE的最大文本长度max_seq_len,我设置为1024时报如下错误:AssertionError: max_seq_len(1024) should be in the range of [1, 512]原因是ERNIE的最大文本长度只能在1到512之间。参考文献1、PaddleHub提供的ERNIE进行文本分类...原创 2020-06-19 01:35:37 · 997 阅读 · 2 评论 -
NLP自然语言处理——文本分类之特征提取
特征提取参考文献参考文献1、sklearn——CountVetorizer详解原创 2020-06-15 19:44:31 · 3798 阅读 · 2 评论 -
NLP自然语言处理——文本分类之三大基础技术
三大基础基础技术写在前面一、 中文分词jieba(结巴)分词三种分词模式(1)全模式 :把所有可以成词的词语都列出来。(2)精确模式:把句子精确地切分开。(3)搜索引擎模式:在精确模式的基础上,对长词再切分。二、 词性标注三、命名实体识别四、总结写在前面本文大量的参考了《Python自然语言处理实战:核心技术与算法》,其代码托管在github上,地址是https://github.com/nl...原创 2020-06-15 19:43:48 · 1703 阅读 · 0 评论 -
自然语言处理NLP——文本分类之模型建立
为完待续。。。原创 2020-06-15 19:42:14 · 886 阅读 · 0 评论 -
NLP自然语言处理——文本分类之评价指标
文本分类评价指标一、准确率(Accuracy)二、精确率(Precision)三、召回率(Recall)四、F1参考文献一、准确率(Accuracy)准确率关注整体效果,只适合均衡的数据。准确率公式如下:Accuracy=预测正确的样本数总样本数Accuracy=\frac{预测正确的样本数}{总样本数}Accuracy=总样本数预测正确的样本数二、精确率(Precision)精确率关...原创 2020-06-15 19:37:52 · 3336 阅读 · 0 评论