近期,听大神讲了一些分词的算法,深受启发,打算做一个互联网热词发现系统,主要由一个分布式网络爬虫和一个分词系统再加一个数据库构成,数据库这块还没有什么头绪,但是网络爬虫和分词算法都有些许眉目。于是打算将网络爬虫从最简单的抓取单个页面到宽度优先遍历再到多线程爬虫最后到分布式网络爬虫一一写到博客。其中会夹杂一些页面内容提取之类。
这是第一篇,先介绍爬取单个网页。
1.什么是HttpClient
HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,也就是一个
实现了HTTP协议的客户端编程工具包。HTTP协议简单的来讲就是用户向服务器请求数据,服务器响应用户请求然后将结果返回给用户。