- 博客(9)
- 资源 (7)
- 收藏
- 关注
原创 利用gensim主题模型寻找相似的coursera课程
参考http://www.52nlp.cn/如何计算两个文档的相似度三#encoding=utf-8from nltk.tokenize import word_tokenizefrom nltk.corpus import stopwordsfrom nltk.stem.lancaster import LancasterStemmercourses=[line.strip() f
2015-06-26 15:08:22 831
原创 gensim的LSI模型来计算文档的相似度
from gensim import corpora,models,similaritiesdictionary=corpora.Dictionary.load('/tmp/deerwester.dict')corpus=corpora.MmCorpus('/tmp/deerwester.mm')print(corpus)lsi=models.LsiModel(corpus,id2wor
2015-06-26 01:28:15 4618
原创 gensim的主题模型LSI
将上问的输入文档归为两个主题from gensim import corpora,models,similaritiesdictionary=corpora.Dictionary.load('/tmp/deerwester.dict')corpus=corpora.MmCorpus('/tmp/deerwester.mm')print(corpus)tfidf=models.TfidfM
2015-06-26 00:50:23 3770
原创 使用gensim计算文档的相似度
gensim是一个主题模型的python库,可以在官网下载http://radimrehurek.com/gensim/index.html以下代码使用gensim来计算文档之间的相关性,使用的是tfidf模型。文档在下面用一句话代替from gensim import corpora,models,similarities#nine documents,each consistin
2015-06-25 23:38:56 2772
原创 smo算法的c++实现
#include #include #include #include #include #include #include #include #include #include #include using namespace std;using namespace Eigen;class svm{public: EIGEN_MAKE_ALIGNED_OPER
2015-06-11 11:19:51 1642
原创 SVM算法2
线性可分支持向量机学习算法输入:线性可分训练集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} 其中xi∈Rn,yi∈{−1,+1},i=1,2,..,Nx_i \in \bf R^n,\it y_i \in \{-1,+1\},\quad i=1,2,..,N 输出:分离超平面和分类决策函数 (1)构造
2015-06-09 21:18:26 672
原创 SVM算法1
支持向量机(support vector machines,SVM)是一种二类分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quardratic)的问题,也等价于正则化的合页损失函数的最小化问题。 支持向量机学习方法包含构建由简到繁的模型,
2015-06-07 21:46:50 3024
原创 Logistic回归模型的训练与测试,C++ 实现
#include #include #include #include #include #include #include #include #include #include using namespace std;void loadDataset(vector> &dataMat,vector &labelMat,const string &filename){
2015-06-03 14:09:40 1426 1
原创 Logistic回归模型的Python及C++实现
一.基于Logistic回归和Sigmoid函数的分类优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 适用数据类型:数值型和标称型数据1.1逻辑斯谛分布分布函数为: F(x)=P(X≤x)=11+e−(x−u)/γF(x)=P(X\leq x)= \frac{1}{1+e^{-(x-u)/\gamma}} 密度函数为: f(x)=e−(x−u)/γγ(1+e−(x−
2015-06-01 19:49:28 4571 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人