互联网爬虫的爬取思路 -------基于java的

最新推荐文章于 2024-08-01 14:29:43 发布

你可拉倒吧

最新推荐文章于 2024-08-01 14:29:43 发布

阅读量1.2k

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/qq_35794278/article/details/80287406

版权

java应用专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.0 模拟http请求

怎么模拟？用什么模拟？注意的问题？

模拟浏览器的行为用java的的 httpclient 这个jar包来实现我们可以用wireshark这个网络分析抓包工具抓取我们电脑的http请求看看他的协议头都有啥然后用httpclient对应函数添加进去就ok了

httpclient中文教程

或者

httpclient 指南

1.1 http请求的执行过程（资料来源百度知道）

更加详细的http分析点击这里
http请求的基本过程是连接、请求、应答、关闭连接。

1.连接：当我们输入这样一个请求时，首先要建立一个socket连接，因为socket是通过ip和端口建立的，所以之前还有一个DNS解析过程，把www.mycompany.com变成ip，如果url里不包含端口号，则会使用该协议的默认端口号。

DNS的过程是这样的：首先我们知道我们本地的机器上在配置网络时都会填写DNS，这样本机就会把这个url发给这个配置的DNS服务器，如果能够找到相应的url则返回其ip，否则该DNS将继续将该解析请求发送给上级DNS。

整个DNS可以看做是一个树状结构，该请求将一直发送到根直到得到结果。现在已经拥有了目标ip和端口号，这样我们就可以打开socket连接了。

2.请求：连接成功建立后，开始向web服务器发送请求，这个请求一般是GET或POST命令（POST用于FORM参数的传递）。GET命令的格式为：GET 路径/文件名 HTTP/1.0。

文件名指出所访问的文件，HTTP/1.0指出Web浏览器使用的HTTP版本。现在可以发送GET命令：GET /mydir/index.html HTTP/1.0。

3.应答：web服务器收到这个请求，进行处理，从它的文档空间中搜索子目录mydir的文件index.html。如果找到该文件，Web服务器把该文件内容传送给相应的Web浏览器。

为了告知浏览器，Web服务器首先传送一些HTTP头信息，然后传送具体内容（即HTTP体信息），HTTP头信息和HTTP体信息之间用一个空行分开。

常用的HTTP头信息有：

① HTTP 1.0 200 OK：　这是Web服务器应答的第一行，列出服务器正在运行的HTTP版本号和应答代码，代码”200 OK”表示请求完成。

② MIME_Version:1.0：　它指示MIME类型的版本。

③ content_type:类型：　这个头信息非常重要，它指示HTTP体信息的MIME类型。如：content_type:text/html指示传送的数据是HTML文档。

④ content_length:长度值：　它指示HTTP体信息的长度（字节）。

4.关闭连接：当应答结束后，Web浏览器与Web服务器必须断开，以保证其它Web浏览器能够与Web服务器建立连接。

下面我们用火狐浏览器随便打开一个网址按f12 如下
这里写图片描述

点击网络在2处输入http 点击回车

这里写图片描述

在2处随便选择一个选项会出现3 4 的内容这就是http的响应头和响应体
如果不知道英文的意思
这里写图片描述
点击问号会有解释

这就是我为什么会用火狐的原因别的浏览器搞不了

2.0 接收我们请求的响应

一般我们的请求会这么写

    CloseableHttpClient httpclient = HttpClients.createDefault();

    HttpGet httpget = new HttpGet("http://localhost/");

    CloseableHttpResponse response = httpclient.execute(httpget);

实例化httpclient这个类并且设置好一些默认值这个默认值一般就是http请求头如果你不写就是默认值
设置你要请求的方法并且设置路径
执行http请求返回http响应

response 包含很多方法来获取响应头和响应体响应体就是源码

3.0 有了源码之后就可以解析源码了我用的是jsoup

4.0 解析之后就是存储数据分析可视化等等自己想做的加工了

5.0 关于反爬虫

模拟手机端进行爬虫会容易的多

/*****************************************************************************************/
常见的反爬虫

　　从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。

　　一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度。

/*****************************************************************************************/
　　通过Headers反爬虫

　　从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

/*****************************************************************************************/
　　基于用户行为反爬虫

　　还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。

　　大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。这样的代理ip爬虫经常会用到，最好自己准备一个。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib2中很容易做到，这样就能很容易的绕过第一种反爬虫。

　　对于第二种情况，可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站，可以通过请求几次，退出登录，重新登录，继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。

/****************************************************************************************/
　　动态页面的反爬虫

　　上述的几种情况大多都是出现在静态页面，还有一部分网站，我们需要爬取的数据是通过ajax请求得到，或者通过Java生成的。首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求，也能分析出具体的参数和响应的具体含义，我们就能采用上面的方法，直接利用requests或者urllib2模拟ajax请求，对响应的json进行分析得到需要的数据。

　　能够直接模拟ajax请求获取数据固然是极好的，但是有些网站把ajax请求的所有参数全部加密了。我们根本没办法构造自己所需要的数据的请求。我这几天爬的那个网站就是这样，除了加密ajax参数，它还把一些基本的功能都封装了，全部都是在调用自己的接口，而接口参数都是加密的。遇到这样的网站，我们就不能用上面的方法了，我用的是selenium+phantomJS框架，调用浏览器内核，并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本。从填写表单到点击按钮再到滚动页面，全部都可以模拟，不考虑具体的请求和响应过程，只是完完整整的把人浏览页面获取数据的过程模拟一遍。

　　用这套框架几乎能绕过大多数的反爬虫，因为它不是在伪装成浏览器来获取数据（上述的通过添加 Headers一定程度上就是为了伪装成浏览器），它本身就是浏览器，phantomJS就是一个没有界面的浏览器，只是操控这个浏览器的不是人。利用 selenium+phantomJS能干很多事情，例如识别点触式（12306）或者滑动式的验证码，对页面表单进行暴力破解等等。它在自动化渗透中还会大展身手，以后还会提到这个。
/*****************************************************************************************/

我们爬取网站要有最起码的规范不要给服务器太大压力要不然人家服务器蹦掉了你还搞毛？

所以设置个sleep(1000) 也是正确的