搜索引擎
文章平均质量分 96
chenweishaoxing
这个作者很懒,什么都没留下…
展开
-
Taste/Thoth:开源的推荐系统引擎
推荐者:草根帮主 (积分 188515) | 24 顶一下 收藏 Taste(http://taste.sourceforge.net/)是非常棒的一个推荐系统核心引擎,sf 上可以下载到 Taste 的最新版本。Taste 同...原创 2011-12-27 12:13:52 · 320 阅读 · 0 评论 -
中文分词器 mmseg4j
当前位置: 开源软件 » 软件分类 » 中文分词库 » mmseg4j 中文分词器 mmseg4j 收藏该软件 我的收藏夹 /设置 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chts...原创 2012-01-01 15:52:18 · 106 阅读 · 0 评论 -
基于 Apache Mahout 构建社会化推荐引擎
基于 Apache Mahout 构建社会化推荐引擎 马 春娥 , 软件工程师, IBM 赵 晨婷 , 软件工程师, IBM 简介: Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 AS...原创 2012-01-01 16:10:20 · 79 阅读 · 0 评论 -
Java 抓取网页数据
Java 抓取网页数据 Java工作 题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下 目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。 首先选择一个地址,比如http://www.51leba.com 代码部分如下: Java...原创 2012-02-08 10:03:52 · 261 阅读 · 0 评论 -
爬虫抓取需要登陆才能被访问的页面
爬虫抓取需要登陆才能被访问的页面 2009年09月03日 星期四 下午 11:47 1. 获取需要登陆才能被访问的页面,HttpClient(扩展HttpWebRequest)来实现 使用 HttpClient client = new HttpClient("[登陆页面地址]?username=aaa&password=bbb", null, true); //最后一个...原创 2012-02-08 10:05:53 · 2990 阅读 · 0 评论 -
httpparase + httpclient 的使用
使用 HttpClient 和 HtmlParser 实现简易爬虫(一) (2010-04-20 15:30:25) 转载▼ 标签: it 分类: 搜索引擎 这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理...原创 2012-02-08 10:30:32 · 227 阅读 · 0 评论