搜索引擎
文章平均质量分 96
chenweishaoxing
这个作者很懒,什么都没留下…
展开
-
Taste/Thoth:开源的推荐系统引擎
推荐者:草根帮主 (积分 188515) | 24顶一下 收藏 Taste(http://taste.sourceforge.net/)是非常棒的一个推荐系统核心引擎,sf 上可以下载到 Taste 的最新版本。Taste 同...原创 2011-12-27 12:13:52 · 312 阅读 · 0 评论 -
中文分词器 mmseg4j
当前位置: 开源软件 » 软件分类 » 中文分词库 » mmseg4j 中文分词器 mmseg4j 收藏该软件 我的收藏夹/设置 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chts...原创 2012-01-01 15:52:18 · 99 阅读 · 0 评论 -
基于 Apache Mahout 构建社会化推荐引擎
基于 Apache Mahout 构建社会化推荐引擎 马 春娥, 软件工程师, IBM赵 晨婷, 软件工程师, IBM简介: Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 AS...原创 2012-01-01 16:10:20 · 75 阅读 · 0 评论 -
Java 抓取网页数据
Java 抓取网页数据Java工作题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。首先选择一个地址,比如http://www.51leba.com 代码部分如下: Java...原创 2012-02-08 10:03:52 · 250 阅读 · 0 评论 -
爬虫抓取需要登陆才能被访问的页面
爬虫抓取需要登陆才能被访问的页面2009年09月03日 星期四 下午 11:471. 获取需要登陆才能被访问的页面,HttpClient(扩展HttpWebRequest)来实现使用HttpClient client = new HttpClient("[登陆页面地址]?username=aaa&password=bbb", null, true); //最后一个...原创 2012-02-08 10:05:53 · 2980 阅读 · 0 评论 -
httpparase + httpclient 的使用
使用 HttpClient 和 HtmlParser 实现简易爬虫(一) (2010-04-20 15:30:25)转载▼标签: it分类: 搜索引擎这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理...原创 2012-02-08 10:30:32 · 223 阅读 · 0 评论