自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 如何计算句子相似度?

句子相似度的计算方法有: 1.欧氏距离:多维空间两个点的绝对距离 2.余弦相似度:用两个向量的夹角的余弦值来衡量相似度,首先对句子做embedding再计算两个句子或文本的相似度,更注重方 向上的差异 3.TF-IDF:从词频率的角度出发计算一个词在一个文档和所有文档的频率 4.doc2vec,word2vec:用来创建词向量的模型,doc2vec是word2vec的扩展,可以计算单个词...

2019-07-31 23:50:52 2962

原创 python return 的写法

def file2matrix(filename): fr = open(filename) numberOfLines = len(fr.readlines()) # get the number of lines in the file returnMat = zeros((numberOfLines, 3)) # prepare matrix to return

2018-01-24 17:57:33 1442

转载 KNN

1.我们提出了k近邻算法,算法的核心思想是,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。更通俗说一遍算法的过程,来了一个新的输入实例,我们算出该实例与每一个训练点的距离(这里的复杂度为0(n)比较大,所以引出了下文的kd树等结构),然后找到前k个,这k个哪个类别数最多,我们就判断新的输入实例就是哪类!

2018-01-23 15:37:06 274

转载 Mixing iteration and read methods would lose data

>>> f = open(r'c:\Movie\test.txt') >>> f.next() 'This is the first line\n' >>> f.next() ' Second line\n' >>> f.readline() Traceback (most recent call last): File "", line 1, in ValueError: Mixing i

2018-01-23 14:23:21 1573

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除