- 博客(5)
- 资源 (3)
- 收藏
- 关注
转载 算法一些例子
求字典序在s1和s2之间的,长度在len1到len2的字符串的个数,结果mod 1000007#include<iostream> #include<string> #include<vector> #include<math.h> using namespace std;int main(){ string s1,s2; int len1,len2; while(cin>>
2016-09-09 15:44:26 1194
原创 python表达式
列表表达式 在需要改变列表而不是需要新建某列表时,可以使用列表解析。列表解析表达式为: [expr for iter_var in iterable] 首先迭代iterable里所有内容,每一次迭代,都把iterable里相应内容放到iter_var中,再在表达式中应用该iter_var的内容,最后用表达式的计算值生成一个列表。 含有if的表达式: [expr for iter_var in
2016-09-09 13:34:10 680
原创 doc2vec计算文档相似度
doc2vec是基于word2vec的,word2vec对于计算两个词语的相似度效率比较好,修改了word2vec中的cbow和skip-gram模型,paragraph vector直接得到doc向量。 使用过程 1.读取文件,os.walk()遍历文件夹 2.构建语料库,分词,过滤停用词。用gensim.models.doc2vec.TaggedDocument() 为文档打tag 3.
2016-09-07 16:47:14 16329 3
原创 gensim similarity计算文档相似度
向量空间模型计算文档集合相似性。 将原始输入的词转换为ID,词的id表示法简单易用,但是无法预测未登记词,难以挖掘词关系;词汇鸿沟[1]:任意两个词之间是独立的,无法通过词的ID来判断词语之间的关系,无法通过词的id判断词语之间的关系[2]使用gensim包的models,corpora,similarities,对文档进行相似度计算,结果比较其他lda、doc2vec方法稳定。 主要步骤: 1
2016-09-07 15:15:36 14672
原创 LSHForest进行文本相似性计算
LSH Forest: Locality Sensitive Hashing forest,局部敏感哈希森林, 是最近邻搜索方法的代替,排序实现二进制搜索和32位定长数组和散列,使用hash家族的随机投影方法近似余弦距离。 随机投影树,对所有的数据进行划分,将每次搜索与计算的点的数目减小到一个可接受的范围,然后建立多个随机投影树构成随机投影森林,将森林的综合结果作为最终的结果。 随机投影树的构建
2016-09-07 13:41:57 4459 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人