数据挖掘/搜索引擎
文章平均质量分 73
dsniff
这个作者很懒,什么都没留下…
展开
-
由PageRank想到的
首先来看看什么是PageRank:PageRank 技术:通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外,Page原创 2007-08-16 13:17:00 · 665 阅读 · 0 评论 -
对文本分类词库的考虑
老板喊看看能不能做个分类词库的东西,以后我们分类、聚类就根据这个库来做了。所谓分类词库,我是这样理解的:每个类别都有N个词,当需聚类文本分词之后,统计其词的分部情况,看看词落在哪个类比较多,从而组成特征向量用于聚类。查了些资料,发现他的思路已经被N多人做过,而且过程比较复杂:对文本分词、去停用词、特征选择、生成向量空间、聚类算法……总而言之,是采用词做为最小的义原,这样做的弊端是步骤太多,如何原创 2007-05-27 17:50:00 · 3478 阅读 · 0 评论 -
近期工作总结
很久没有更新这个blog了,总是觉得没什么可写的……BS下下自己,惰性又出来了!首先还是看看近期做了哪些事情吧:从上一次写博到现在已经过去40余天了,写了第二篇论文。然后准备去百度面试……等等!中间大概有十天没有做具体的事情! What‘s a shame! 然后的然后就是面试归来,被鄙视,进入学习linux。对了,今天就是打算写下百度笔试的题。昨晚冯总和涛哥在讨论笔试的几个题,作为笔试者原创 2007-10-04 11:56:00 · 1082 阅读 · 0 评论