- 博客(4)
- 收藏
- 关注
原创 如何计算句子相似度?
句子相似度的计算方法有:1.欧氏距离:多维空间两个点的绝对距离2.余弦相似度:用两个向量的夹角的余弦值来衡量相似度,首先对句子做embedding再计算两个句子或文本的相似度,更注重方 向上的差异3.TF-IDF:从词频率的角度出发计算一个词在一个文档和所有文档的频率4.doc2vec,word2vec:用来创建词向量的模型,doc2vec是word2vec的扩展,可以计算单个词...
2019-07-31 23:50:52 3006
原创 python return 的写法
def file2matrix(filename): fr = open(filename) numberOfLines = len(fr.readlines()) # get the number of lines in the file returnMat = zeros((numberOfLines, 3)) # prepare matrix to return
2018-01-24 17:57:33 1455
转载 KNN
1.我们提出了k近邻算法,算法的核心思想是,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。更通俗说一遍算法的过程,来了一个新的输入实例,我们算出该实例与每一个训练点的距离(这里的复杂度为0(n)比较大,所以引出了下文的kd树等结构),然后找到前k个,这k个哪个类别数最多,我们就判断新的输入实例就是哪类!
2018-01-23 15:37:06 285
转载 Mixing iteration and read methods would lose data
>>> f = open(r'c:\Movie\test.txt')>>> f.next()'This is the first line\n'>>> f.next()' Second line\n'>>> f.readline()Traceback (most recent call last): File "", line 1, in ValueError: Mixing i
2018-01-23 14:23:21 1590
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人