- 博客(4)
- 资源 (6)
- 收藏
- 关注
转载 LSH
SimHash 参考:http://blog.csdn.net/heiyeshuwu/article/details/44117473 如下图,规定是多少位,对各个特征进行hash。将所有特征的进行累加。累加结果,若该位大于0则为1,小于0则为0。 可以基于海明距离还计算是否相似 还有查询的问题。空间换时间,取前若干位作为index MinHash 参考:http://blog.csdn.net/s
2015-08-29 23:33:58 622
原创 从DT到Random Forest、GBDT
决策树基础的内容,参考的链接: http://leijun00.github.io/2014/09/decision-tree/ ID3最基础的决策树,多叉树,仅能处理离散型值 采用信息增益来处理 g(D,A)=H(D)−H(D|A) 会偏向有较多属性的feature,容易过拟合 C4.5对ID3的改进 对于连续值,进行划分。假设是min,k1,k2,…,max的划分,依次尝试划分的方式,计算最佳
2015-08-29 23:16:35 1978
原创 TextRank
关键字嗯,模型比较简单,限定一个窗口(比如一个词前后k个词,认为他们具有连接),然后计算PageRank 得到的就是这段话里的关键字,据说比TFIDF要靠谱点关键句主要也是句子间连接关系的限定,paper里计算句子的相似度: 然后一样计算: 看清楚累加的下标 Vj 是 In(Vi) 的集合,分母是 Out(Vj) 的集合参考信息参考1 参考2 代码 论文
2015-08-06 15:08:00 803
C++实现遗传算法GA(包含多种选择算子变异算子实现)
2011-11-10
基于JAVA、数据库架设旅游信息网站
2011-05-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人