2016年09月_一个聪明的女人

10月 09月 08月 07月 06月

转载算法一些例子

求字典序在s1和s2之间的，长度在len1到len2的字符串的个数，结果mod 1000007#include<iostream> #include<string> #include<vector> #include<math.h> using namespace std;int main(){ string s1,s2; int len1,len2; while(cin>>

2016-09-09 15:44:26 1194

原创 python表达式

列表表达式在需要改变列表而不是需要新建某列表时，可以使用列表解析。列表解析表达式为： [expr for iter_var in iterable] 首先迭代iterable里所有内容，每一次迭代，都把iterable里相应内容放到iter_var中，再在表达式中应用该iter_var的内容，最后用表达式的计算值生成一个列表。含有if的表达式： [expr for iter_var in

2016-09-09 13:34:10 680

原创 doc2vec计算文档相似度

doc2vec是基于word2vec的，word2vec对于计算两个词语的相似度效率比较好，修改了word2vec中的cbow和skip-gram模型，paragraph vector直接得到doc向量。使用过程 1.读取文件，os.walk()遍历文件夹 2.构建语料库，分词，过滤停用词。用gensim.models.doc2vec.TaggedDocument() 为文档打tag 3.

2016-09-07 16:47:14 16329 3

原创 gensim similarity计算文档相似度

向量空间模型计算文档集合相似性。将原始输入的词转换为ID，词的id表示法简单易用，但是无法预测未登记词，难以挖掘词关系；词汇鸿沟[1]:任意两个词之间是独立的，无法通过词的ID来判断词语之间的关系，无法通过词的id判断词语之间的关系[2]使用gensim包的models,corpora,similarities，对文档进行相似度计算，结果比较其他lda、doc2vec方法稳定。主要步骤： 1

2016-09-07 15:15:36 14672

原创 LSHForest进行文本相似性计算

LSH Forest: Locality Sensitive Hashing forest,局部敏感哈希森林，是最近邻搜索方法的代替，排序实现二进制搜索和32位定长数组和散列，使用hash家族的随机投影方法近似余弦距离。随机投影树，对所有的数据进行划分，将每次搜索与计算的点的数目减小到一个可接受的范围，然后建立多个随机投影树构成随机投影森林，将森林的综合结果作为最终的结果。随机投影树的构建

2016-09-07 13:41:57 4459 2

A Byte of Python3(中文版).pdf带源代码

2015-12-19

word2vec源代码

word2vec google源代码 c语言版

2015-12-19

编译原理DFA源代码

c语言编写的DFA代码，小型编译器的前奏，栈等结构的操作，内有注释

2013-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 算法一些例子