- 博客(1)
- 资源 (6)
- 收藏
- 关注
原创 CogLTX : bert处理长文本代码解析
前言github: https://github.com/Sleepychord/CogLTX数据预处理首先是数据预处理部分,其主要是将长文本切分为块,即如下3个文件夹对应3个不同数据集的预处理脚本。下面就挑20news这个来看看吧。首先就是按标点符号分隔开,如果两个逗号中间的文本过长(大于B=63),那就按B再切分,然后再合并各个块,合并的原则就是看标点符号,举个例子吧。假设有5个块,第一个块结尾是逗号,第二个结尾是句号,第三个和第四个是由于原来该块过长被分开成两个,第五个块是以句号结尾的。每
2020-12-20 23:52:54 4359 6
NotoSansHans-Regular.otf&DroidSansFallback;.ttf
NotoSansHans.otf 以及DroidSansFallback.ttf,支持中文
2018-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人