信息检索
telnetor
非诚勿扰
展开
-
班智达转换为喜马拉雅
1.将文字弄到word,字体等设置如下图2.将word中文字复制到wordpad3.安装、运行、设置转换软件:The Unicode Document Processor安装运行方式全部默认,下面上设置截图(这是最重要的一步)注意下图右上角的注意下图的字体设置(调出此窗口的路径:Options->font)备注:上面用到的软件可在http://ishare.iask.sina.com.cn/f/3原创 2010-04-10 10:27:00 · 8736 阅读 · 1 评论 -
[转帖]网页爬虫程序开发经验谈
转帖自:blog.chinaunix.net/u2/86783/showart_2032137.html现在是网络的时代,所有数据都可以在互联网上得到,所以能够自动抓取Web数据的网页爬虫程序(又叫网络机器人,Web Robot)就逐渐流行了起来。开发网页爬虫的过程,需要运用各种Heuristic(摸索体验)的作法:尝试你的想法,修正预期以外的错误(错误通常相当多),一再重复进行,直到网页爬虫可行原创 2010-04-25 20:36:00 · 819 阅读 · 0 评论 -
TF-IDF:网页和某个查询的相关性
TF-IDF:网页和某个查询的相关性 计算 TF:关键词的频率 、单文本词汇频率 Term Frequency 衡量关键词在单个网页中出现的频率。关键词的次数/单个网页的总字数(去掉应删除词(stopwords))。 IDF:逆文本频率指数 Inverse document frequency 衡量一个词在整个文档集(所有网页)中的权重。Log(D/Dw) ,一个关键词w在Dw个网页中出现过,D是原创 2010-03-16 17:25:00 · 779 阅读 · 0 评论