SE(搜索引擎)
文章平均质量分 77
Samule704
这个作者很懒,什么都没留下…
展开
-
一种根据关键字进行分类的文本分类算法
前段时间在做文本分类,用了k-means算法来分500篇文章,花了1个小时,分的结果还乱七八糟。当年学的高数和线性代数已经还给老师了,看SVM等于看天书,无奈之下,自己想了个法子来进行分类,就是依靠关键字来进行分类。 简单的说下原理吧,如果某篇文章包含有很多军事类别的关键字,那么该文章很有可能就是军事方面的文章。OK,这样的话我们只需要从文章中提取关键字,然后对这些关键字的类别进行判断,就可以得到转载 2009-12-27 09:06:00 · 4033 阅读 · 2 评论 -
数学之美 系列 12 - 余弦定理和新闻的分类
余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻转载 2009-12-27 09:51:00 · 927 阅读 · 0 评论 -
分析垂直搜索引擎与深度挖掘
目前在搜索引擎正处在高速发展中,通常搜索引擎会对互联网相当部分站点进行检索。但是内容过于庞大,导致了内容不够细分,并没有满足用户深入的需求,如何基于目标站点或站点群,建立一套可行的垂直搜索框架,满足各种特制的规则,并且在内容上做到细致分类,加之构建良好索引,为用户提供良好的信息聚集与查询服务。 当前的互联网搜索引擎通常由4大系统组成: 下载系统:负责从万维网上下载各种类型的网页,并且保持对万转载 2009-12-26 21:58:00 · 1803 阅读 · 0 评论 -
Web页面清洗难在何处?
http://hi.baidu.com/vanjor/blog/item/c52672222f42975a9922ed25.html 今天在联系上司关于毕设的进展后,需要我所获取的网页数据,也就是在网络爬行到一定规模的文档,她要做下一步语义实验分析吧,我当时就毫不迟疑的问她是否要原始网页文档数据,还是清除html标记的文本档数据。她说,要清除后的文档。我原还以为这个十分容易,但后来发现要对转载 2009-12-26 21:59:00 · 1055 阅读 · 1 评论 -
教你文本聚类(参考http://www.kuqin.com/searchengine/20080511/8323.html)
2009过去了,为了纪念过去的一年特在此 10 年 的第一天起了个大早,参考 蛙蛙池塘 的 教你文本聚类 一文http://www.kuqin.com/searchengine/20080511/8323.html 以 Java 代码的形式予以实现。一下为我对此文的理解及源码。 ps:顺祝大家在新的一年里 工作顺利, 心想事成! 摘要:文本聚类是搜翻译 2010-01-01 10:38:00 · 2832 阅读 · 3 评论 -
文本关键词的提取算法实验
近期刚刚开始进入 SE 的领域,觉得这里面确实有很多值得研究的东西,从 网络爬虫 到 网页信息的抽取 再到 文本关键词的提取 以及用户检索(个性化SE) 等等 包罗万象。 下午玩完,先来无事,再次浏览了一下 蛙蛙池塘 的博客,觉得里面的对关键词的提取算法还不错,所以个人又在上午实验的基础上,完善了下这部分。 对于该部分,蛙蛙池塘 的实现我觉得有一点是不合理的(个人意原创 2010-01-01 20:45:00 · 4879 阅读 · 3 评论