自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 使用 colab &pytorch 训练深度学习模型问题记录(二): stack expects each tensor to be equal size, but got [64] at entry

出现这个Runtime error 很有可能是因为一个 batch 内每条数据长度不一致,检查是否需要 pad 或者 truncate 是否有问题。我在使用 transformers 的 Berttokenizer 处理句子对是遇到这个问题,不同的数据有不同的特点,根据具体情况调整 truncate 策略。encoded_pair = self.tokenizer(sent1, sent2, padding='max_leng

2021-02-20 11:38:03 2141

原创 使用 colab &pytorch 训练深度学习模型问题记录(一):tqdm 显示过多细节,显示多行

如遇到上问题,在 colab 的 ipynb 内运行以下代码,问题部分解决。!kill -9 -1

2021-02-20 11:16:15 585

原创 SQL leetcode题目(持续更新)

1142.过去30天的用户活动 II±--------------±--------+| Column Name | Type |±--------------±--------+| user_id | int || session_id | int | – 每个session 都有唯一的编号| activity_date | date || activity_type | enum |±--------------±--------

2020-09-14 10:39:59 185

原创 Word2vec 笔记|总结

Word2vec 总结两类模型:continuous bag-of-words (CBOW)根据上下文预测中心词;skip-gram 根据中心词预测上下文两种训练方式:负采样和层次 softmax,负采样通过抽取负的样本建立目标函数,而层次 softmax 使用树结构来计算每个词的概率。word2vec 是基于神经网络的语言模型,输入词嵌入矩阵VVV和输出词嵌入矩阵UUU是模型要训练的参数,CBOW 通过上下文 one-hot 向量和VVV相乘求平均得到中心词词向量估计vvv,中心词词向量再和UU

2020-08-28 18:09:36 318

原创 学习python零散笔记(一):纵向拼接array & 寻找多维array中是否存在某一行指定的array

纵向拼接np.concatenate([a,b], axis = 0)np.vstack([a,b]) np.r_[a,b]使用以上方法进行纵向拼接时,要注意被拼接array的维度相同,空的array不可以和非空的拼接。一般都需要对array进行reshape操作。ptsInClust = np.array([0,0]).reshape([1,2])x = np.array(X[i,...

2019-08-27 17:32:04 912

翻译 信息检索导论 第十七章十八章知识点

层次聚类层次聚类(hierarchical clustering或hierarchic clustering)会输出一个具有层次结构的簇集合,可以是自顶向下或自底向上的一个过程。自底向上(HAC)的算法一开始将每篇文档都看成是一个簇,然后不断地对簇进行两两合并(或称凝聚(agglomerate)),直到所有文档都聚成 一类为止。而自顶向下的方法则首先将所有文档看成一个簇,然后不断利用某种方法对簇...

2019-08-15 13:40:05 919

原创 Python中TypeError: '_io.TextIOWrapper' object is not subscriptable问题解决/readlines()/with...as...

file_name = '/Users/.../test.txt'with open(file_name,'r', encoding='utf-8') as fin: a = fin.readlines()[1] fin.close

2019-06-15 12:55:43 32391

原创 隐语义索引(LSI):词项与文档降维后的向量表示

隐语义索引(LSI):词项与文档降维后的向量表示给定 M×NM\times NM×N 的词项文档矩阵 CCC,对其进行奇异值分解并把 Σ\SigmaΣ 中对角线上 r−kr-kr−k 个最小奇异值置为 000 后得到了在F-范数意义下最优的1秩为kkk的低秩逼近CkC_{k}Ck​:Ck=UΣkVTC_{k}=U\Sigma _{k}V^{T}Ck​=UΣk​VT把后 kkk 位奇异值...

2019-06-15 11:18:57 962

Hya-2022-2023-ipynb

Hya-2022-2023-ipynb

2023-04-14

Hya-sql-memo

Hya-sql-memo

2023-04-14

Hya-2022-2023-pred-long

Hya-2022-2023-pred-long

2023-04-14

Hya-2022-2023-work

Hya-2022-2023-work

2023-03-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除