
数据挖掘
jollyjumper
一点记录
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TextRank: Bringing Order into Texts论文笔记
原来在搜PageRank论文时找到这篇04年发表、引用次数3066次的论文。原文链接:https://www.aclweb.org/anthology/W04-3252.pdf阅读之后,发现并不是做网页排序或者爬虫调度相关的。而是利用PageRank/Hits等随机游走的方法对文本中的单元计算出类似PageRank的值,用来做无监督的关键词抽取、关键句子抽取,取得了很好的效果。具体在...原创 2020-02-14 00:51:29 · 438 阅读 · 0 评论 -
文本分类的两种方法
一种方法是使用朴素贝叶斯方法(更高级可以用费舍尔方法),但是特征需要自己提取,如果只是看其中关键词,似乎还用不上词频,另一种可以使用文本的term vector(也可以是其他特征向量),先把不同分类的特征向量计算出来(可以直接累加),然后计算向量夹角,看离哪个更近或者确定阈值即可判断,这种方法在确定文档相似性时经常用到.原创 2014-01-12 20:37:56 · 1485 阅读 · 0 评论 -
Boilerplate Detection Using Shallow Text Features论文小笔记
网页正文抽取是个很重要的东西,可以减少索引大小,让搜索结果更准确,数据挖掘也更准确.昨天晚上在网上看到这个东西:http://code.google.com/p/boilerpipe/很高兴,用于抽取网页上的正文,它还有一个gae的页面:http://boilerpipe-web.appspot.com,测了一下准确率,召回率都还没蛮高的.最关键的一点是:几年前在一家小公司我也做过原创 2014-01-24 23:39:15 · 1894 阅读 · 0 评论 -
我的第一个svm程序:手写字识别
之前学过svm相关知识,基本原理不算复杂,今天做了一个手写字识别程序,总算验证了svm的效果。因为只是验证效果,实现上原则是简单,使用python + libsvm + PIL(python image library)。这部分工作花了一些时间:PIL:http://www.pythonware.com/products/pil/下载源码包,解压之后运行:python setup.原创 2015-05-03 10:42:05 · 8429 阅读 · 1 评论 -
Beta分布
Beta分布Wiki:http://zh.wikipedia.org/wiki/%CE%92%E5%88%86%E5%B8%83如何理解beta分布和dirichlet分布:http://maider.blog.sohu.com/306392863.htmlBeta分布和Dirichlet分布:http://blog.csdn.net/sweetrryy/article/details/6转载 2015-05-16 17:38:13 · 2366 阅读 · 0 评论 -
线性规划
http://zh.wikipedia.org/wiki/%E7%BA%BF%E6%80%A7%E8%A7%84%E5%88%92今天看支持向量机导论第一章时看到线性规划的对偶问题,其实还是一个线性规划,在想这样难道求解会更快?看起来不需要对偶就可以求解,一般适用单纯形法(以前算法导论看过又忘了),只有在顶点非常多时才使用内点法。整数规划为NP难问题。转载 2015-05-16 17:34:19 · 1071 阅读 · 0 评论 -
LDA方法
P{词语|文档}=delta(P(词语|主题)*p(主题|文档))II(训练所有doc)IIp(z|theta)|p(w|z),theta服从dirichlet分布,最大似然,应用最大期望算法(EM),求出dirichlet分布得参数向量,随后对测试文档进行估算.参考:http://blog.csdn.net/huagong_adu/article/details/7937616转载 2015-05-16 17:36:23 · 1165 阅读 · 0 评论 -
EM算法
从最大似然到EM算法浅解:http://blog.csdn.net/zouxy09/article/details/8537620期望最大算法是一种从不完全数据或有数据丢失的数据集中求解概率模型参数的最大似然估计方法转载 2015-05-16 17:37:17 · 509 阅读 · 0 评论 -
libsvm中的后验概率
这里有一篇论文提到应用后验概率的,基于后验概率的个人信用评估SVM模型:http://www.docin.com/p-573276093.html这里后验概率的计算,是假定概率符合sigmoid分布,通过最大似然求解,求解出A,B,算出后验概率。这里的网格搜索范围,稳健性处理(3倍标准差法),分层抽样等处理值得借鉴。转载 2015-05-17 09:43:02 · 2442 阅读 · 0 评论