java 爬虫框架_学校程序设计实训作业:Java爬虫(WebMagic框架)的简单操作

09aec66abbe318c07ded7a59c769ac19.png

项目名称:java爬虫

项目技术选型:Java、Maven、Mysql、WebMagic、Jsp、Servlet

项目实施方式:以认知java爬虫框架WebMagic开发为主,用所学java知识完成指定网站的数据爬取解析,并使用Servlet和Jsp展示到页面

实训环境:一人一机,边讲边练

实训简介:

本次实训的主要目的是增强学生对于WebMagic框架和Servlet的了解,并结合所学的理论知识进行爬虫实战。需要同学掌握包括目前市场上使用广泛的Mysql数据、Java语言、WebMagic框架和Servlet的开发,并了解大中型大数据行业的基本模式知识。

此次实训选择的案例有:

Mysql数据库基本操作

Java基本语法使用

WebMagic框架搭建并开发爬虫项目

通过学习这些内容可大大提升学生对计算机知识的理解,促进专业课程的学习,从而潜移默化的提升学生的就业竞争力。

步骤:

1、下载、安装好Maven,并在Eclipse中配置好Maven的相关设置。

1)、下载、安装Maven

下载地址:http://maven.apache.org/download.cgi,根据自己系统选择合适版本进行下载:

194f5edc4389aa34689bbc9688611f09.png

解压下载的文件到合适的位置即完成了Maven的安装:

cdf7d25b56cc40c7a2af8a5625f48446.png

2)、设置环境变量

复制Maven的安装路径下bin目录的路径,将其添加到电脑的环境变量中去:

复制bin目录所在的路径:

c74c2fbfc4923e42bf044d1bd9e1d7c0.png

添加环境变量:

328a7d7b6a16050686df0f191fe11102.png

在cmd下输入:mvn --version  检查Maven是否安装成功,出现以下提示则安装成功:

73e8cc5c0866392e09fcdbdb118beca4.png

3)、可忽略:修改Maven安装目录 conf下的settings.xml文件(E:apache-maven-3.5.4confsettings.xml),来配置本地仓库的位置和将远程仓库镜像修改成阿里云镜像:

配置本地仓库,在下面加上自己所要创建的本地仓库的地址(根据自身情况设置):

0d8889eab79b14ca072d9f393d830fb7.png

Maven仓库默认在国外,使用难免很慢,尤其是下载依赖的时候,速度贼慢,换成国内阿里云镜像后会在速度上有很大的提升:

<mirror>
      

4538151e982c0f9ba639634f4c223365.png

4)、Eclipse的配置

以下步骤,在每个人的电脑上显示的内容可能会不一样(截图来自不同的项目,请忽略包名、类名等信息,部分截图来自网络,不同截图里的相关信息可能不同),但操作步骤是一样的,只要照着做就行了,在Eclipse上安装maven,打开Eclipse点击window>prferences之后会弹出:

88ed24698282ba7b0eaf8596acb85569.png

892504b7d81b43b3973b06dee79963e9.png

点击确定之后会出现:

b73ada22baf3153d5306f372f57538bf.png

点击finish之后:

89ca240f639c47a962af6ceaeca7c4a5.png

在Eclipse中配置Maven:

打开Eclipse的首选项设置

c666b95a55d4a5ab2e65cc54f784526f.png

找到Maven的配置项

b71bd37cdf35a477a4a153ccea624681.png

设置Maven的全局配置文件settings.xml

7c1337339487e2758a4bd4716f189e30.png

更新配置信息

a1b448d0409b7cc59feb5da4473308f5.png

2、在Eclipse中创建Maven项目

1)、开启eclipse,右键new——》other,如下图找到maven project或者直接搜索maven projec:

创建项目:

b4c9442658d12355122a76dc5b614046.png

2)、选择Maven Project,请选中Create a simple project(skip archetype selection),之后点击Next :

a084902da5e0493d1db67cc9723e6ccb.png

3)、填写Group id和Artifact id, Version默认,Packaging默认为jar,Name,Description选填,其他的可以都不填写:

5dcede27ff11bedd48359d0620da9dad.png

之后点击Finish即可,此时需要等待一段时间下载所需要的文件,创建后的完整项目结构应如下图所示:

f33e7ee9d6a5ec579b986a3a2b3f4315.png

3、编写Java爬虫项目代码,抓取https://hr.tencent.com/position.php网站的相关信息:

1)、所需要抓取网页内容:职位名称、职位类别、人数、地点、发布时间

7c0b5f5554d59db1e91ca7bdb0dbcf98.png

2)、根据所要抓取的内容(抓取内容包括:职位名称、职位类别、人数、地点、发布时间),可参照下面的SQL语句设计数据库(mysql):

/*

3)、在创建的项目下,首先需要配置好pom.xml,然后分别创建四个类和一个接口(名字自己取):MySQLUtils、TencentPageProcessor、TencentPosition、TencentPositionDao(接口)、TencentPositionDaoImpl

466991dc9713d6d8d366fec2dd5f1d45.png

配置pom.xml:

pom.xml文件的设置:填写好<dependency..../dependency>后的内容后,一定记得要按Ctrl+S/保存按钮,之后Eclipse会自动从设置好的Maven仓库中下载所需要的文件,可能需要一定的时间:

2a3b51013cd0423074767fbcfe6321cf.png

dependency数据来自:http://mvnrepository.com/  分别搜索:webmagic、mysql会显示相关内容

6e3cf130b8085519ce079325d16f544b.png

点击搜索得到的内容,复制框内的代码到pom.xml的<dependency..../dependency>代码块中:

91d775f69d7b402b348f37244c03efc4.png

可以在Maven Dependencies库中查看是否下载完成:

89837301bfc77e9a86a4b7ac72d5f937.png

以下是示例代码,自己编码时,请记得一定要改动代码。

MySQLUtils类代码如下:

import 

TencentPosition代码如下:

public 

TencentPositionDao接口代码如下:

public 

TencentPositionDaoImpl类代码如下:

import 

TencentPageProcessor类代码如下:

import 

4、编码完成,点击运行、进行测试

当控制台显示如下内容时,则表示抓取成功:

b9396d7e3f0001caf09a2bb2f7a22769.png

此时可以查看自己的数据库看是否有数据,如果有数据,并且数据库中的数据和网页中需要抓取的数据一致,则表示本次的Java爬虫实验已达到要求:

85c86169a076041b69e6fd951076e893.png

实验完成。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值