![09aec66abbe318c07ded7a59c769ac19.png](https://img-blog.csdnimg.cn/img_convert/09aec66abbe318c07ded7a59c769ac19.png)
项目名称:java爬虫
项目技术选型:Java、Maven、Mysql、WebMagic、Jsp、Servlet
项目实施方式:以认知java爬虫框架WebMagic开发为主,用所学java知识完成指定网站的数据爬取解析,并使用Servlet和Jsp展示到页面
实训环境:一人一机,边讲边练
实训简介:
本次实训的主要目的是增强学生对于WebMagic框架和Servlet的了解,并结合所学的理论知识进行爬虫实战。需要同学掌握包括目前市场上使用广泛的Mysql数据、Java语言、WebMagic框架和Servlet的开发,并了解大中型大数据行业的基本模式知识。
此次实训选择的案例有:
Mysql数据库基本操作
Java基本语法使用
WebMagic框架搭建并开发爬虫项目
通过学习这些内容可大大提升学生对计算机知识的理解,促进专业课程的学习,从而潜移默化的提升学生的就业竞争力。
步骤:
1、下载、安装好Maven,并在Eclipse中配置好Maven的相关设置。
1)、下载、安装Maven
下载地址:http://maven.apache.org/download.cgi,根据自己系统选择合适版本进行下载:
![194f5edc4389aa34689bbc9688611f09.png](https://img-blog.csdnimg.cn/img_convert/194f5edc4389aa34689bbc9688611f09.png)
解压下载的文件到合适的位置即完成了Maven的安装:
![cdf7d25b56cc40c7a2af8a5625f48446.png](https://img-blog.csdnimg.cn/img_convert/cdf7d25b56cc40c7a2af8a5625f48446.png)
2)、设置环境变量
复制Maven的安装路径下bin目录的路径,将其添加到电脑的环境变量中去:
复制bin目录所在的路径:
![c74c2fbfc4923e42bf044d1bd9e1d7c0.png](https://img-blog.csdnimg.cn/img_convert/c74c2fbfc4923e42bf044d1bd9e1d7c0.png)
添加环境变量:
![328a7d7b6a16050686df0f191fe11102.png](https://img-blog.csdnimg.cn/img_convert/328a7d7b6a16050686df0f191fe11102.png)
在cmd下输入:mvn --version 检查Maven是否安装成功,出现以下提示则安装成功:
![73e8cc5c0866392e09fcdbdb118beca4.png](https://img-blog.csdnimg.cn/img_convert/73e8cc5c0866392e09fcdbdb118beca4.png)
3)、可忽略:修改Maven安装目录 conf下的settings.xml文件(E:apache-maven-3.5.4confsettings.xml),来配置本地仓库的位置和将远程仓库镜像修改成阿里云镜像:
配置本地仓库,在下面加上自己所要创建的本地仓库的地址(根据自身情况设置):
![0d8889eab79b14ca072d9f393d830fb7.png](https://img-blog.csdnimg.cn/img_convert/0d8889eab79b14ca072d9f393d830fb7.png)
Maven仓库默认在国外,使用难免很慢,尤其是下载依赖的时候,速度贼慢,换成国内阿里云镜像后会在速度上有很大的提升:
<mirror>
![4538151e982c0f9ba639634f4c223365.png](https://img-blog.csdnimg.cn/img_convert/4538151e982c0f9ba639634f4c223365.png)
4)、Eclipse的配置
以下步骤,在每个人的电脑上显示的内容可能会不一样(截图来自不同的项目,请忽略包名、类名等信息,部分截图来自网络,不同截图里的相关信息可能不同),但操作步骤是一样的,只要照着做就行了,在Eclipse上安装maven,打开Eclipse点击window>prferences之后会弹出:
![88ed24698282ba7b0eaf8596acb85569.png](https://img-blog.csdnimg.cn/img_convert/88ed24698282ba7b0eaf8596acb85569.png)
![892504b7d81b43b3973b06dee79963e9.png](https://img-blog.csdnimg.cn/img_convert/892504b7d81b43b3973b06dee79963e9.png)
点击确定之后会出现:
![b73ada22baf3153d5306f372f57538bf.png](https://img-blog.csdnimg.cn/img_convert/b73ada22baf3153d5306f372f57538bf.png)
点击finish之后:
![89ca240f639c47a962af6ceaeca7c4a5.png](https://img-blog.csdnimg.cn/img_convert/89ca240f639c47a962af6ceaeca7c4a5.png)
在Eclipse中配置Maven:
打开Eclipse的首选项设置
![c666b95a55d4a5ab2e65cc54f784526f.png](https://img-blog.csdnimg.cn/img_convert/c666b95a55d4a5ab2e65cc54f784526f.png)
找到Maven的配置项
![b71bd37cdf35a477a4a153ccea624681.png](https://img-blog.csdnimg.cn/img_convert/b71bd37cdf35a477a4a153ccea624681.png)
设置Maven的全局配置文件settings.xml
![7c1337339487e2758a4bd4716f189e30.png](https://img-blog.csdnimg.cn/img_convert/7c1337339487e2758a4bd4716f189e30.png)
更新配置信息
![a1b448d0409b7cc59feb5da4473308f5.png](https://img-blog.csdnimg.cn/img_convert/a1b448d0409b7cc59feb5da4473308f5.png)
2、在Eclipse中创建Maven项目
1)、开启eclipse,右键new——》other,如下图找到maven project或者直接搜索maven projec:
创建项目:
![b4c9442658d12355122a76dc5b614046.png](https://img-blog.csdnimg.cn/img_convert/b4c9442658d12355122a76dc5b614046.png)
2)、选择Maven Project,请选中Create a simple project(skip archetype selection),之后点击Next :
![a084902da5e0493d1db67cc9723e6ccb.png](https://img-blog.csdnimg.cn/img_convert/a084902da5e0493d1db67cc9723e6ccb.png)
3)、填写Group id和Artifact id, Version默认,Packaging默认为jar,Name,Description选填,其他的可以都不填写:
![5dcede27ff11bedd48359d0620da9dad.png](https://img-blog.csdnimg.cn/img_convert/5dcede27ff11bedd48359d0620da9dad.png)
之后点击Finish即可,此时需要等待一段时间下载所需要的文件,创建后的完整项目结构应如下图所示:
![f33e7ee9d6a5ec579b986a3a2b3f4315.png](https://img-blog.csdnimg.cn/img_convert/f33e7ee9d6a5ec579b986a3a2b3f4315.png)
3、编写Java爬虫项目代码,抓取https://hr.tencent.com/position.php网站的相关信息:
1)、所需要抓取网页内容:职位名称、职位类别、人数、地点、发布时间
![7c0b5f5554d59db1e91ca7bdb0dbcf98.png](https://img-blog.csdnimg.cn/img_convert/7c0b5f5554d59db1e91ca7bdb0dbcf98.png)
2)、根据所要抓取的内容(抓取内容包括:职位名称、职位类别、人数、地点、发布时间),可参照下面的SQL语句设计数据库(mysql):
/*
3)、在创建的项目下,首先需要配置好pom.xml,然后分别创建四个类和一个接口(名字自己取):MySQLUtils、TencentPageProcessor、TencentPosition、TencentPositionDao(接口)、TencentPositionDaoImpl
![466991dc9713d6d8d366fec2dd5f1d45.png](https://img-blog.csdnimg.cn/img_convert/466991dc9713d6d8d366fec2dd5f1d45.png)
配置pom.xml:
pom.xml文件的设置:填写好<dependency..../dependency>后的内容后,一定记得要按Ctrl+S/保存按钮,之后Eclipse会自动从设置好的Maven仓库中下载所需要的文件,可能需要一定的时间:
![2a3b51013cd0423074767fbcfe6321cf.png](https://img-blog.csdnimg.cn/img_convert/2a3b51013cd0423074767fbcfe6321cf.png)
dependency数据来自:http://mvnrepository.com/ 分别搜索:webmagic、mysql会显示相关内容
![6e3cf130b8085519ce079325d16f544b.png](https://img-blog.csdnimg.cn/img_convert/6e3cf130b8085519ce079325d16f544b.png)
点击搜索得到的内容,复制框内的代码到pom.xml的<dependency..../dependency>代码块中:
![91d775f69d7b402b348f37244c03efc4.png](https://img-blog.csdnimg.cn/img_convert/91d775f69d7b402b348f37244c03efc4.png)
可以在Maven Dependencies库中查看是否下载完成:
![89837301bfc77e9a86a4b7ac72d5f937.png](https://img-blog.csdnimg.cn/img_convert/89837301bfc77e9a86a4b7ac72d5f937.png)
以下是示例代码,自己编码时,请记得一定要改动代码。
MySQLUtils类代码如下:
import
TencentPosition代码如下:
public
TencentPositionDao接口代码如下:
public
TencentPositionDaoImpl类代码如下:
import
TencentPageProcessor类代码如下:
import
4、编码完成,点击运行、进行测试
当控制台显示如下内容时,则表示抓取成功:
![b9396d7e3f0001caf09a2bb2f7a22769.png](https://img-blog.csdnimg.cn/img_convert/b9396d7e3f0001caf09a2bb2f7a22769.png)
此时可以查看自己的数据库看是否有数据,如果有数据,并且数据库中的数据和网页中需要抓取的数据一致,则表示本次的Java爬虫实验已达到要求:
![85c86169a076041b69e6fd951076e893.png](https://img-blog.csdnimg.cn/img_convert/85c86169a076041b69e6fd951076e893.png)
实验完成。