信息检索
文章平均质量分 79
leeshuqing
主要从事计算机语言、数据库等技术应用,面向推荐系统、文献分析等应用领域
展开
-
常见的推荐系统框架
TagRec是一个使用Java编写的简单通用标签(Tag)推荐器模块,还同时提供了包含处理数据集的算法(如p核修剪、留一或80/20分割、LDA主题创建和为其他推荐算法创建输入文件等)。CaseRecommender是一个基于Python的开源推荐系统算法模块,提供了很多流行推荐算法的Python实现,用于隐式和显式反馈。原创 2024-05-12 11:30:04 · 658 阅读 · 0 评论 -
关于搜狗实验室用户查询日志的分析
同学可以自行下载原始数据集合:http://download.labs.sogou.com/resource/q.php这里主要利用Sql Server数据库来演示基本的分析方法1)数据导入:可以将全部日志文件合并为一个单一文件,以方便导入,方法是在命令提示符界面中运行 copy *.filter data.dat数据格式为Linux系统文本存储格式,便于处理可以利用l原创 2017-04-20 20:30:22 · 5863 阅读 · 3 评论 -
2014年抓取Google查询结果的方法
import java.io.IOException;import java.io.InputStream;import java.net.InetSocketAddress;import java.net.Proxy;import java.net.URL;import java.net.URLConnection;import java.util.Scanner;p转载 2014-03-27 04:41:12 · 1026 阅读 · 0 评论 -
GraphViz的使用及其中文字符的绘制
GraphViz为绘制有向网络的可视化工具包使用方法如下:1)下载安装http://www.graphviz.org/Download..php。此处说明皆以Windows版本为平台。2)在Java项目中新建类GraphViz,代码如下,其中需要改的有两处:一处是TEMP_DIR变量的取值,选择自己需要保存文件的路径;二是DOT变量的取值,应该为安装GraphViz后路径中的dot程序原创 2013-03-01 22:12:50 · 4485 阅读 · 2 评论 -
基于词语共现时间元方法的个性化学术研究时序路径发现及其可视化呈现技术
该系统利用GraphViz绘制工具包,利用收集的图情方向文献数据提供了相关个性化学术研究时序路径的可视化查看方法。网址为:http://www.njcie.com/time,如果使用还需安装graphviz-2.30.1.msi可视化绘图工具包,网址为:http://www.graphviz.org/pub/graphviz/stable/windows/graphviz-2.30.1.msi原创 2013-03-08 04:53:30 · 1586 阅读 · 0 评论 -
一种读者图书借阅二分网络中的优质图书迭代识别算法
为了给图书馆读者用户提供更满意的个性化推荐图书,我们必须在两方面做出有效的工作:一是如何来准确的识别用户可能感兴趣的图书主题或者类别,不像图书,读者用户一般没有完整直接的兴趣特征标识。常用的方法往往是采用读者所借图书的主题信息来间接表达读者的兴趣特征,然而我们也注意到,读者在借阅时并非始终对某种既定主题保持着浓厚的兴趣,有时也因为能力和专业水平的差距,大量的所借图书可能并非自己最终所要的图书,甚至原创 2012-10-20 07:31:32 · 892 阅读 · 0 评论 -
Java通过JNI调用ICTCLAS中文分词包的方法
1)从网络上下载ICTCLAS分词包的Java JNI版本ICTCLAS官方网站为:http://ictclas.org/ICTCLAS2011_Linux_32_jni下载地址为:http://ictclas.org/down/50/ICTCLAS50_Windows_32_JNI.rar 2)新建Java项目,类代码为:public class Exec {原创 2012-10-07 06:09:59 · 3607 阅读 · 6 评论 -
学术研究文献的关键路径发现系统——以计算机类文献为例
使用说明:用户可以直接输入查询关键词,同时系统还提供了1742个文档频率高于10的关键词列表以方便用户选择输入。界面中央展示了相应的文献查询结果,节点列从右向左分别表达2000年到2009年共十年的文献数据,节点对应的文献位置越高则代表文献权重值越大,不同节点之间的链接表达了引文关系,其中蓝色表示被引关系,而红色表示引用关系。用户还可以通过调节界面右边的"文档数量"和"引文权值"来改变相应的查询结原创 2011-11-05 08:22:59 · 1092 阅读 · 0 评论 -
基于Apache的HTTPClient的网页获取方法
import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import org.apache.http.HttpEntity;import org.apache.http.HttpResponse;import org.apache.http.client.HttpClie原创 2011-06-25 11:06:00 · 2826 阅读 · 0 评论 -
Java实现的TFIDF空间向量查询方法
<br />1、简单的分词程序<br />public class Exec {<br /> public static void main(String[] args) {<br /> String[] stopList = { "an", "and", "are", "as", "at", "be", "by",<br /> "for", "from", "has", "he", "in", "is原创 2011-03-29 13:03:00 · 2001 阅读 · 0 评论 -
PageRank计算方法的SQL实现
<br />1、表准备<br />存储所有网页的基本信息<br />CREATE TABLE [WebPages] (<br /> [DOCID] [int] IDENTITY (1, 1) NOT NULL ,<br /> [URL] [varchar] (900) COLLATE Chinese_PRC_CI_AS NULL ,<br /> [PAGETEXT] [text] COLLATE Chinese_PRC_CI_AS NULL ,<br /> [REFCOUNT] [int] NULL ,<b原创 2011-02-03 17:45:00 · 764 阅读 · 0 评论 -
Google Ajax Search API的基本使用方法
Google Search API参考书籍:Google API大全—编程?开发?实例书籍对几十种Google常用API进行了梳理和介绍,辅以行之有效的代码实例http://code.google.com/intl/zh-CN/apis/ajaxsearch/documentation/1)Google Site SearchGoogle站点内嵌搜索的使用方法首页站内全文搜索,谷歌合作原创 2010-05-23 22:05:00 · 3641 阅读 · 0 评论 -
谷歌推出语音搜索移动版
作为谷歌在中国的重磅产品之一,谷歌语音搜索终于在大家的期待中发布了。中文用户作为世界上最庞大的一群,现也可以操起普通话对着手机喊出要搜索的东西了。通过手机访问g.cn进入Google中国移动版主页,即可看到“新!下载语音搜索”的提示文字。进入之后即可下载Google语音搜索软件,安装之。有意思的是,并非大家想像的那样,Google会率先推出支持Android系统的语音搜索,目前的语音搜索只支持原创 2009-11-10 09:17:00 · 586 阅读 · 0 评论 -
适用于元搜索引擎的搜索引擎结果采集方法
1 最简单的下载网页方法import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.net.URL;public class Exec { public static void main(String args[]) {原创 2009-05-06 22:53:00 · 799 阅读 · 0 评论 -
访问Google搜索API的swing窗体程序
import java.awt.BorderLayout;import java.awt.Dimension;import java.awt.Toolkit;import java.awt.event.ActionEvent;import java.awt.event.ActionListener;import javax.swing.JButton;import javax.swing.JC原创 2009-05-06 22:54:00 · 1026 阅读 · 9 评论 -
关于搜索引擎相关内容的推荐网站列表
1)搜索引擎比较著名的搜索引擎发展历史介绍(History of Search Engines: From 1945 to Google 2007)http://www.searchenginehistory.com/一个对此翻译不是很好的相关网站(仅供参考):http://www.yeeyan.com/articles/view/41036/12723关于各个搜索引擎公司历史演变进程的年原创 2009-04-06 14:27:00 · 704 阅读 · 0 评论 -
利用Lucene编写的文档向量相似度计算程序
import java.io.IOException;import org.apache.lucene.analysis.WhitespaceAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index.Inde原创 2009-03-23 23:10:00 · 5103 阅读 · 3 评论 -
基于面向对象编程的文档向量相似度匹配算法
public class Exec { public static void main(String[] args) { // get documents String[] docs = { // "lsq java lsq vb ",原创 2009-03-23 12:57:00 · 1153 阅读 · 0 评论