- 博客(5)
- 资源 (13)
- 收藏
- 关注
原创 跟我一步一步学爬虫---宽度优先遍历篇(四)
宽度优先遍历是爬虫中使用最广泛的一种爬虫策略,之所以使用宽度优先搜索策略,主要原因有三点:1、重要的网页往往离种子比较近,例如我们打开的新闻网站的时候往往是最热门的新闻,随着不断的深入冲浪,所看到的网页的重要性越来越低。2、万维网的实际深度最多能达到17层,但到达某个网页总存在着一条很短的路径。而宽度优先遍历会以最快的速度到达这个页面。3、宽度优先有利于多爬虫的合作抓取,多爬虫合作通常
2015-03-25 16:53:35 1734
原创 java做一个远程桌面程序
这是一个远程桌面程序,只有看没有操作。先写一个服务端,用来发送这台电脑的图像import java.awt.Dimension;import java.awt.Rectangle;import java.awt.Robot;import java.awt.Toolkit;import java.awt.image.BufferedImage;import java.io.IOEx
2015-03-20 13:43:42 2449 1
原创 跟我一步一步学爬虫---403禁止访问(三)
对于初学者肯定会什么网站都爬,然后就会发现有些网站比如CSDN就会返回403错误。原因是浏览器和java程序的请求是不太一样的,我们伪装成浏览器的行为就可以了。import java.io.IOException;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.httpclient.Htt
2015-03-06 16:25:41 4606
原创 跟我一步一步学爬虫---传参篇(二)
今天我们来学习下用post方式请求后台。我设计的程序有两种:1、给服务器传参,然后服务器打印出来,然后用PrintWriter类写出来(模拟ajax)。2、请求服务器,然后跳转到其他网页。先做第1种(后台服务器用Servlet):java代码import java.io.IOException;import org.apache.commons.httpclie
2015-03-06 15:24:50 807
原创 跟我一步一步学爬虫---基础篇(一)
最近打算研究一下java爬虫是怎么玩的,查了一些资料然后自己实践。最近看的一本书是《自己动手写网络爬虫》。需要下载与HttpClient相关的一些jar http://download.csdn.net/detail/hjgzj/8478289今天的是入门的第一步,抓取一个页面。import java.io.IOException;import java.net.Malform
2015-03-06 15:08:01 1119
快乐下班 v2.11
2019-03-04
快乐下班源码
2019-03-04
快乐下班v2.1
2019-03-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人