零基础完成珍爱网项目 Java+MySQL+echarts (ZhenaiSpider+ZhenaiWeb)(二)

如期而至,继续我们的项目,上次我们配置好了我们的环境  今天呢,我们开始创建我们的项目。

首先 ,启动Eclipse dian点file 创建yi'g一个新的maven项目

注意创建的时候,要钩选这个,而且默认的创建项目的位置是你当初设置的位置,如果你想更改,点击browse 即可更改,在这里呢我选择默认的路径,ran'然后点击next

这里的groupid和artifactId被统称为“坐标”是为了保证项目唯一性而提出的,如果你要把你项目弄到maven本地仓库去,你想要找到你的项目就必须根据这两个id去查找。
  groupId一般分为多个段,这里我只说两段,第一段为域,第二段为公司名称。域又分为org、com、cn等等许多,其中org为非营利组织,com为商业组织。举个apache公司的tomcat项目例子:这个项目的groupId是org.apache,它的域是org(因为tomcat是非营利项目),公司名称是apache,artigactId是tomcat。
  比如我创建一个项目,我一般会将groupId设置为cn.lyh,cn表示域为中国,lyh是我个人姓名缩写,artifactId设置为ZhenaiSpider,表示你这个项目的名称是ZhenaiSpider,依照这个设置,你的包结构最好是cn.lyh.ZhenaiSpider打头的,如果有个包叫single,它的全路径就是cn.lyh.ZhenaiSpider.single

设置完成之后我们的maven项目就算搭建好了 ,接下来我们会看到一个pom.xml 文件,打开之后是这样的

我们需要去http://mvnrepository.com/ 这个网站去找我们所需要的依赖 我们不会一次性导入所有依赖 只有在需要的时候才会去导入,

接下来呢 我们要用到的技术是HTTP 协议+爬虫(jsoup - HTML) 当然了  为了提高效率我们用的是多线程去爬取数据(关于Java的多线程 可参考其他帖子,这里就不一一赘述了)

关于Http协议:

  HTTP协议其实就是用来定义Web客户端如何从Web服务器请求Web页面,以及服务器如何把Web页面传送给客户端。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求报文,请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行作为响应,响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。

简单的来说 在浏览器地址栏键入URL,点击链接之后会经历以下流程

1、浏览器向 DNS 服务器请求解析该 URL 中的域名所对应的 IP 地址;

2、解析出 IP 地址后,根据该 IP 地址和默认端口 80,和服务器建立TCP连接;

3、浏览器发出读取文件(URL 中域名后面部分对应的文件)的HTTP 请求,该请求报文作为 TCP 三次握手的第三个报文的数据发送给服务器;

4、服务器对浏览器请求作出响应,并把对应的 html 文本发送给浏览器;

5、释放 TCP连接;

6、浏览器将该 html 文本并显示内容;  

Jsoup :

 

所谓的爬虫,简单的来说 一个网页 ,就是一个文本文件,所谓的爬虫就是一个利用解析器,把我们所需要的信息从网页中拿出来 并把这些信息保存到本地 或者写到数据库里。而jsoup就是Java的 一个强大的Html解析器,它可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。而我们可以去打开浏览器,而在我们的项目中要用到jsoup  我们需要去找依赖并下载下来,打开网站搜索jsoup

第一个就是 然后我用的是最新的1.11.3 

点击你所需要的版本 

分析url:

 通过分析,其实我们可以发现,每个网站的url 都是有规律的 ,如图

然后我们用 Java去模拟 去请求

请求完成之后,剩下的工作就是通过返回的字符串来进行对文本的解析

这时候我们就要通过强大的jsoup去进行解析

首先我们要知道 在浏览器中 我们是可以看到网页的源码的,在浏览器中按f12 即可进入  或者直接鼠标右键 会出来查看源代码,但推荐用前者

例如:

 

 

我们要通过网页的源代码去拿wo'm我么所需要的数据,比如性别,是否结过婚,年龄,是否购车,是否有房,学历情况,收入等等一系列信息

我们从网页源码中可以发现 id 是放在这儿的  ,然后我们 用 select 方法 拿出 ID 然后在用.text() 方法拿到值  这样我们就 获取到了这个用户的id ,利用此方法我们可以拿到这个页面的任何信息

下面这个截图只是个参考 大家要去自己分析看看 是不是这样,试试自己是否能够分析出来想要的结果

这样我们的的爬虫基本上就结束了,下次我将会wei为大家分享 如何将获取到的的数据保存到Mysql 数据库中 然后为大家介绍制做报表的神器Echarts 本次分享就先到这儿,若文中有什么不足的地方希望大家可以在评论区进行指点。大家可以加关注,继续看我下次的分享哦

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值