![09aec66abbe318c07ded7a59c769ac19.png](https://i-blog.csdnimg.cn/blog_migrate/830edff34d7f9a548e737922c48f9b5b.jpeg)
项目名称:java爬虫
项目技术选型:Java、Maven、Mysql、WebMagic、Jsp、Servlet
项目实施方式:以认知java爬虫框架WebMagic开发为主,用所学java知识完成指定网站的数据爬取解析,并使用Servlet和Jsp展示到页面
实训环境:一人一机,边讲边练
实训简介:
本次实训的主要目的是增强学生对于WebMagic框架和Servlet的了解,并结合所学的理论知识进行爬虫实战。需要同学掌握包括目前市场上使用广泛的Mysql数据、Java语言、WebMagic框架和Servlet的开发,并了解大中型大数据行业的基本模式知识。
此次实训选择的案例有:
Mysql数据库基本操作
Java基本语法使用
WebMagic框架搭建并开发爬虫项目
通过学习这些内容可大大提升学生对计算机知识的理解,促进专业课程的学习,从而潜移默化的提升学生的就业竞争力。
步骤:
1、下载、安装好Maven,并在Eclipse中配置好Maven的相关设置。
1)、下载、安装Maven
下载地址:http://maven.apache.org/download.cgi,根据自己系统选择合适版本进行下载:
![194f5edc4389aa34689bbc9688611f09.png](https://i-blog.csdnimg.cn/blog_migrate/1162aa529d7ed0ba63118bfcff1e657a.jpeg)
解压下载的文件到合适的位置即完成了Maven的安装:
![cdf7d25b56cc40c7a2af8a5625f48446.png](https://i-blog.csdnimg.cn/blog_migrate/f1af86ed7757aef8929f32510f088f32.jpeg)
2)、设置环境变量
复制Maven的安装路径下bin目录的路径,将其添加到电脑的环境变量中去:
复制bin目录所在的路径:
![c74c2fbfc4923e42bf044d1bd9e1d7c0.png](https://i-blog.csdnimg.cn/blog_migrate/94a6714212d253e5544c8e35cbb94b11.jpeg)
添加环境变量:
![328a7d7b6a16050686df0f191fe11102.png](https://i-blog.csdnimg.cn/blog_migrate/f4d4f106718d7eec77da184df1483649.jpeg)
在cmd下输入:mvn --version 检查Maven是否安装成功,出现以下提示则安装成功:
![73e8cc5c0866392e09fcdbdb118beca4.png](https://i-blog.csdnimg.cn/blog_migrate/4cda79d6a6e5280dc8fa6fa7f07afb0e.jpeg)
3)、可忽略:修改Maven安装目录 conf下的settings.xml文件(E:apache-maven-3.5.4confsettings.xml),来配置本地仓库的位置和将远程仓库镜像修改成阿里云镜像:
配置本地仓库,在下面加上自己所要创建的本地仓库的地址(根据自身情况设置):
![0d8889eab79b14ca072d9f393d830fb7.png](https://i-blog.csdnimg.cn/blog_migrate/3a8cdbd1843a0daad6cff65e7c091418.jpeg)
Maven仓库默认在国外,使用难免很慢,尤其是下载依赖的时候,速度贼慢,换成国内阿里云镜像后会在速度上有很大的提升:
<mirror>
![4538151e982c0f9ba639634f4c223365.png](https://i-blog.csdnimg.cn/blog_migrate/92747a44de1c5e2be107ad17eecb0b5f.jpeg)
4)、Eclipse的配置
以下步骤,在每个人的电脑上显示的内容可能会不一样(截图来自不同的项目,请忽略包名、类名等信息,部分截图来自网络,不同截图里的相关信息可能不同),但操作步骤是一样的,只要照着做就行了,在Eclipse上安装maven,打开Eclipse点击window>prferences之后会弹出:
![88ed24698282ba7b0eaf8596acb85569.png](https://i-blog.csdnimg.cn/blog_migrate/168c6a7f171d3747cda167b7a514d2ab.jpeg)
![892504b7d81b43b3973b06dee79963e9.png](https://i-blog.csdnimg.cn/blog_migrate/465a2a2e69189ef3fc69363b60ea41e6.jpeg)
点击确定之后会出现:
![b73ada22baf3153d5306f372f57538bf.png](https://i-blog.csdnimg.cn/blog_migrate/cecac6ccfabd8169c09ab7ae12600552.jpeg)
点击finish之后:
![89ca240f639c47a962af6ceaeca7c4a5.png](https://i-blog.csdnimg.cn/blog_migrate/38730d0cdfe19c5724d7a2760070c211.jpeg)
在Eclipse中配置Maven:
打开Eclipse的首选项设置
![c666b95a55d4a5ab2e65cc54f784526f.png](https://i-blog.csdnimg.cn/blog_migrate/b6905280f6bff8c17b5f1a245af48260.jpeg)
找到Maven的配置项
![b71bd37cdf35a477a4a153ccea624681.png](https://i-blog.csdnimg.cn/blog_migrate/347fbfd93e8db00faf5957e2c61359f5.jpeg)
设置Maven的全局配置文件settings.xml
![7c1337339487e2758a4bd4716f189e30.png](https://i-blog.csdnimg.cn/blog_migrate/3103f4106eec88aaad3974d5f43186c5.jpeg)
更新配置信息
![a1b448d0409b7cc59feb5da4473308f5.png](https://i-blog.csdnimg.cn/blog_migrate/ff935aef6289bdb294770ce84e3c3952.jpeg)
2、在Eclipse中创建Maven项目
1)、开启eclipse,右键new——》other,如下图找到maven project或者直接搜索maven projec:
创建项目:
![b4c9442658d12355122a76dc5b614046.png](https://i-blog.csdnimg.cn/blog_migrate/d8f698aab53f51fedad7af11aa5c7dcf.jpeg)
2)、选择Maven Project,请选中Create a simple project(skip archetype selection),之后点击Next :
![a084902da5e0493d1db67cc9723e6ccb.png](https://i-blog.csdnimg.cn/blog_migrate/a80d756e4939efc3eef89231df40ff41.jpeg)
3)、填写Group id和Artifact id, Version默认,Packaging默认为jar,Name,Description选填,其他的可以都不填写:
![5dcede27ff11bedd48359d0620da9dad.png](https://i-blog.csdnimg.cn/blog_migrate/89cf8463ad6ec59fa1bfd0ed9f440868.jpeg)
之后点击Finish即可,此时需要等待一段时间下载所需要的文件,创建后的完整项目结构应如下图所示:
![f33e7ee9d6a5ec579b986a3a2b3f4315.png](https://i-blog.csdnimg.cn/blog_migrate/db81473b755eb978f6eb1091c93d9924.jpeg)
3、编写Java爬虫项目代码,抓取https://hr.tencent.com/position.php网站的相关信息:
1)、所需要抓取网页内容:职位名称、职位类别、人数、地点、发布时间
![7c0b5f5554d59db1e91ca7bdb0dbcf98.png](https://i-blog.csdnimg.cn/blog_migrate/a994d2e93c5c40ff84a34552115ec997.jpeg)
2)、根据所要抓取的内容(抓取内容包括:职位名称、职位类别、人数、地点、发布时间),可参照下面的SQL语句设计数据库(mysql):
/*
3)、在创建的项目下,首先需要配置好pom.xml,然后分别创建四个类和一个接口(名字自己取):MySQLUtils、TencentPageProcessor、TencentPosition、TencentPositionDao(接口)、TencentPositionDaoImpl
![466991dc9713d6d8d366fec2dd5f1d45.png](https://i-blog.csdnimg.cn/blog_migrate/0178537a2d5ea4e607cede5834eb8d25.jpeg)
配置pom.xml:
pom.xml文件的设置:填写好<dependency..../dependency>后的内容后,一定记得要按Ctrl+S/保存按钮,之后Eclipse会自动从设置好的Maven仓库中下载所需要的文件,可能需要一定的时间:
![2a3b51013cd0423074767fbcfe6321cf.png](https://i-blog.csdnimg.cn/blog_migrate/3b2651a6d86b439305ff6da11fe0e9a7.jpeg)
dependency数据来自:http://mvnrepository.com/ 分别搜索:webmagic、mysql会显示相关内容
![6e3cf130b8085519ce079325d16f544b.png](https://i-blog.csdnimg.cn/blog_migrate/e0c30fd77c0490fc4802fc0989230c17.jpeg)
点击搜索得到的内容,复制框内的代码到pom.xml的<dependency..../dependency>代码块中:
![91d775f69d7b402b348f37244c03efc4.png](https://i-blog.csdnimg.cn/blog_migrate/2c2b55b8efc066bbdc46e2eb2fca10cb.jpeg)
可以在Maven Dependencies库中查看是否下载完成:
![89837301bfc77e9a86a4b7ac72d5f937.png](https://i-blog.csdnimg.cn/blog_migrate/76c36ab28a0a50a405796b0265473bdd.jpeg)
以下是示例代码,自己编码时,请记得一定要改动代码。
MySQLUtils类代码如下:
import
TencentPosition代码如下:
public
TencentPositionDao接口代码如下:
public
TencentPositionDaoImpl类代码如下:
import
TencentPageProcessor类代码如下:
import
4、编码完成,点击运行、进行测试
当控制台显示如下内容时,则表示抓取成功:
![b9396d7e3f0001caf09a2bb2f7a22769.png](https://i-blog.csdnimg.cn/blog_migrate/c6b156f7a1137589958b0eb04d88c742.jpeg)
此时可以查看自己的数据库看是否有数据,如果有数据,并且数据库中的数据和网页中需要抓取的数据一致,则表示本次的Java爬虫实验已达到要求:
![85c86169a076041b69e6fd951076e893.png](https://i-blog.csdnimg.cn/blog_migrate/a0e1b97399a97a066d3b4d95d3082119.jpeg)
实验完成。