网络爬虫
iteye_7550
这个作者很懒,什么都没留下…
展开
-
分享:网络舆情监控系统爬虫子系统开发心得与不足
转载自 yshjava的个人博客主页 《分享:网络舆情监控系统爬虫子系统开发心得与不足》不知不觉,2011已经过去了,这一年中的大多时间,都花在了舆情监控系统的探索和研发上。尤其是作为舆情监控系统的基础子系统——网络爬虫系统,更是消耗了不少的时间和精力。下面简单分享一下在网络爬虫系统设计开发中的一些经验和不足。 首次接触爬虫,是在前年的时候,一次偶然的机会,从图书馆带回一...2012-01-09 17:07:39 · 1759 阅读 · 0 评论 -
网络爬虫(网络蜘蛛)之网页抓取
查看原文请移步《http://www.yshjava.cn/post/415.html》 现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...2013-05-20 10:44:21 · 661 阅读 · 0 评论 -
HttpClient4.x进行Get/Post请求并使用ResponseHandler处理响应
查看原文请移步http://www.yshjava.cn/post/420.htmlHTTPClient4之后,基本重写了3的所有代码,使得API用起来更显简单有力,最简单的例子体现在get/post请求以及请求响应结果的处理上。3的时候,需要自己处理响应流,无论是网页编码识别还是代码处理等各方面,非常不便,4之后使用ResponseHandler可以非常方便和简洁地处理上述问题。如下代码演...2013-05-20 10:54:37 · 313 阅读 · 0 评论 -
HttpClient4.x客户端身份验证(HTTPS安全连接)
原文地址:http://www.yshjava.cn/post/423.html 最近Apache HttpClient发布了最新的4.3版本,据说有很多的改进,加入了新的设计思想和理念,使API更加简洁有力,闲来无事,做个Demo尝尝鲜。在以前的3.x版本中,HttpClient就已经支持HTTPS连接了,但是代码写的比较多,而且用起来感觉挺别扭的,同样的功能,到了4这里,...2013-05-21 13:33:03 · 275 阅读 · 0 评论 -
基于分块统计和机器学习的主题类网页内容识别算法实现和应用范例
转载自 yshjava的个人博客主页 《基于分块统计和机器学习的主题类网页内容识别算法实现和应用范例》周末两天在家闲着没事,于是整理了一下之前的的文档和一些琐碎的测试代码,居然发现了几个月前写的一个新闻类主题型网页正文文本自动抽取模块。当时写的比较简单和粗糙,虽然抽取结果差强人意,但是也还勉强说得过去。于是清理一下代码上的灰尘,做了一个小Demo,分享一下。 作者写这篇...2012-05-14 14:20:01 · 403 阅读 · 0 评论