自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

转载 算法一些例子

求字典序在s1和s2之间的,长度在len1到len2的字符串的个数,结果mod 1000007#include<iostream> #include<string> #include<vector> #include<math.h> using namespace std;int main(){ string s1,s2; int len1,len2; while(cin>>

2016-09-09 15:44:26 1194

原创 python表达式

列表表达式 在需要改变列表而不是需要新建某列表时,可以使用列表解析。列表解析表达式为: [expr for iter_var in iterable] 首先迭代iterable里所有内容,每一次迭代,都把iterable里相应内容放到iter_var中,再在表达式中应用该iter_var的内容,最后用表达式的计算值生成一个列表。 含有if的表达式: [expr for iter_var in

2016-09-09 13:34:10 680

原创 doc2vec计算文档相似度

doc2vec是基于word2vec的,word2vec对于计算两个词语的相似度效率比较好,修改了word2vec中的cbow和skip-gram模型,paragraph vector直接得到doc向量。 使用过程 1.读取文件,os.walk()遍历文件夹 2.构建语料库,分词,过滤停用词。用gensim.models.doc2vec.TaggedDocument() 为文档打tag 3.

2016-09-07 16:47:14 16329 3

原创 gensim similarity计算文档相似度

向量空间模型计算文档集合相似性。 将原始输入的词转换为ID,词的id表示法简单易用,但是无法预测未登记词,难以挖掘词关系;词汇鸿沟[1]:任意两个词之间是独立的,无法通过词的ID来判断词语之间的关系,无法通过词的id判断词语之间的关系[2]使用gensim包的models,corpora,similarities,对文档进行相似度计算,结果比较其他lda、doc2vec方法稳定。 主要步骤: 1

2016-09-07 15:15:36 14672

原创 LSHForest进行文本相似性计算

LSH Forest: Locality Sensitive Hashing forest,局部敏感哈希森林, 是最近邻搜索方法的代替,排序实现二进制搜索和32位定长数组和散列,使用hash家族的随机投影方法近似余弦距离。 随机投影树,对所有的数据进行划分,将每次搜索与计算的点的数目减小到一个可接受的范围,然后建立多个随机投影树构成随机投影森林,将森林的综合结果作为最终的结果。 随机投影树的构建

2016-09-07 13:41:57 4459 2

A Byte of Python3(中文版).pdf带源代码

A Byte of Python3(中文版).pdf带源代码

2015-12-19

word2vec源代码

word2vec google源代码 c语言版

2015-12-19

编译原理DFA源代码

c语言编写的DFA代码,小型编译器的前奏,栈等结构的操作,内有注释

2013-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除