自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 NLP-中文、英文分词

文章目录前言英文分词方法1.古典分词方法2.基于子词的分词方法(Subword Tokenization)2.1 BPE2.2 WordPiece2.3 Unigram Language Model中文分词方法1.基于规则的分词2.基于统计的分词3.混合分词4.基于深度学习的分词前言学习笔记【NLP英文分词方法和中文分词方法】机器无法理解文本。当我们将句子序列送入模型时,模型仅仅能看到一串字节,它无法知道一个词从哪里开始,到哪里结束,所以也不知道一个词是怎么组成的,为了帮助机器理解文本就需要:1将

2022-05-08 22:57:56 2481

原创 NLP-bert4keras文本分类

bert4keras + textCNN实现文本分类前言一、data process二、model三、train四、predict前言利用bert4keras库和textCNN实现文本分类bert4keras:官方GitHub链接,里面有要求的keras和tensorflow版本有时候不按照官方限制的版本也可以运行,反正出错就百度,安装库都是小问题BERT预训练模型下载:GitHub链接B站:KBQA项目实战第9期-使用bert+textcnn做意图识别和文本分类以及我根据自己实际使用修改的

2022-04-20 21:56:11 1868

原创 NLP-文本预处理(1)

繁简转换、字符串分割、去除连续重复标点符号、查看字符串长度分布

2022-04-19 19:31:02 321 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除