- 博客(1)
- 资源 (4)
- 收藏
- 关注
原创 NLP---Bert分词
根据这三个判断‘是’ 是否需要切开。用1、2的‘我’embedding距离代表‘我’前后的影响大小d1;用2,3的‘是’embedding距离代表‘是’前后影响大小d2,然后用d1d2的平均代表切割前后对两个字影响的大小,大于阈值则切开。1:先将token_ids 复制 (2 * length - 1) 份。第一次先mask’我’,然后mask’我是’,然后mask’是’比如[‘我’,‘是’,‘中’,]
2024-03-19 17:37:53 1137
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人