2015年06月_逍遥游07

12月 08月 07月 06月 05月 04月 03月 01月

原创利用gensim主题模型寻找相似的coursera课程

参考http://www.52nlp.cn/如何计算两个文档的相似度三#encoding=utf-8from nltk.tokenize import word_tokenizefrom nltk.corpus import stopwordsfrom nltk.stem.lancaster import LancasterStemmercourses=[line.strip() f

2015-06-26 15:08:22 831

原创 gensim的LSI模型来计算文档的相似度

from gensim import corpora,models,similaritiesdictionary=corpora.Dictionary.load('/tmp/deerwester.dict')corpus=corpora.MmCorpus('/tmp/deerwester.mm')print(corpus)lsi=models.LsiModel(corpus,id2wor

2015-06-26 01:28:15 4618

原创 gensim的主题模型LSI

将上问的输入文档归为两个主题from gensim import corpora,models,similaritiesdictionary=corpora.Dictionary.load('/tmp/deerwester.dict')corpus=corpora.MmCorpus('/tmp/deerwester.mm')print(corpus)tfidf=models.TfidfM

2015-06-26 00:50:23 3770

原创使用gensim计算文档的相似度

gensim是一个主题模型的python库，可以在官网下载http://radimrehurek.com/gensim/index.html以下代码使用gensim来计算文档之间的相关性，使用的是tfidf模型。文档在下面用一句话代替from gensim import corpora,models,similarities#nine documents,each consistin

2015-06-25 23:38:56 2772

原创 smo算法的c++实现

#include #include #include #include #include #include #include #include #include #include #include using namespace std;using namespace Eigen;class svm{public: EIGEN_MAKE_ALIGNED_OPER

2015-06-11 11:19:51 1642

原创 SVM算法2

线性可分支持向量机学习算法输入：线性可分训练集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} 其中xi∈Rn,yi∈{−1,+1},i=1,2,..,Nx_i \in \bf R^n,\it y_i \in \{-1,+1\},\quad i=1,2,..,N 输出：分离超平面和分类决策函数（1）构造

2015-06-09 21:18:26 672

原创 SVM算法1

支持向量机（support vector machines,SVM）是一种二类分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quardratic）的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机学习方法包含构建由简到繁的模型，

2015-06-07 21:46:50 3024

原创 Logistic回归模型的训练与测试，C++ 实现

#include #include #include #include #include #include #include #include #include #include using namespace std;void loadDataset(vector> &dataMat,vector &labelMat,const string &filename){

2015-06-03 14:09:40 1426 1

原创 Logistic回归模型的Python及C++实现

一.基于Logistic回归和Sigmoid函数的分类优点：计算代价不高，易于理解和实现缺点：容易欠拟合，分类精度可能不高适用数据类型：数值型和标称型数据1.1逻辑斯谛分布分布函数为： F(x)=P(X≤x)=11+e−(x−u)/γF(x)=P(X\leq x)= \frac{1}{1+e^{-(x-u)/\gamma}} 密度函数为： f(x)=e−(x−u)/γγ(1+e−(x−

2015-06-01 19:49:28 4571 2