搜索引擎技术
denniswlin
这个作者很懒,什么都没留下…
展开
-
自己动手写网络爬虫
http://book.51cto.com/art/201012/236661.htm 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 4 1.1.1 深入理解URL 4 1.1.2 通过指定的URL抓取 网页内容 6 1.1.3 Java网页抓取示例 8 1.1.4 处理HTTP状态码 10 1.2 宽度优先爬虫和带偏好的爬虫 11转载 2011-11-23 09:09:03 · 7003 阅读 · 3 评论 -
搜索&爬虫
HTML解析利器HtmlAgilityPack http://zhoufoxcn.blog.51cto.com/792419/595344 通过HtmlAgilityPack+XPath来优化网页采集学习笔记 http://www.cnblogs.com/youuuu/archive/2011/06/20/2085333.html 利用SgmlReader返回XPath分析H原创 2011-10-12 17:57:40 · 691 阅读 · 0 评论