自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 lightGBM和XBGoost的学习参考

XGBoost看到了加权分位,与lightGBM对比,XGBoost前面的内容很重要。lightGBM基本看完了直方图算法,大概理解了leaf-wise,后面的都没看。总之,完成DDL后再看吧...

2024-12-08 14:08:52 417

原创 word2vec的一些重要资料

skip-gram model的output layer还是不太理解,我感觉对于C*V-dim,C个列向量应该是相同的,毕竟隐向量只有一个,从hidden layer->output layer的权重矩阵W'是共用的。

2024-12-06 11:40:27 179

原创 tokenization_bert源码中BertTokenizer的encode方法(未完)

对应的应该是段嵌入和词元嵌入。

2024-11-25 14:51:43 213

原创 tokenization_bert源码中WordpieceTokenizer类解读

vocab:词汇表,一个集合或字典,包含所有已知的 WordPiece tokens。unk_token:未知token的表示,当一个词或子词不在词汇表中时使用。:每个单词的最大字符数。如果单词长度超过这个值,将被视为未知token。tokenize从输入到输出初始化输出列表。遍历每个单词(在这个例子中只有一个单词)。使用贪婪的最长匹配算法将单词分割成 WordPiece tokens。如果单词无法分割,将其视为未知token[UNK]。

2024-11-25 14:20:07 1693

原创 Optional在python中的用法

是 Python 类型注解的一种用法,结合了Optional和。这里,Optional是指该变量可以是类型,也可以是None。是 PyTorch 中的一种数据类型,表示32位浮点数张量。

2024-11-24 15:29:56 1087

原创 2天半cuda学习

那么调用的板块数量为2,每个板块中的线程数量是3,那么线程总数是6。从属关系:thread < block < grid。线程(thread):并行的最小单位。板块(block):包含若干个线程。网格(grid):指整个。当前线程在板块中的编号。一个板块中的线程数量。下面代码可以进行展示。

2024-11-01 18:19:21 198

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除