Java-网页爬虫

本文介绍了使用Java和Maven创建爬虫项目的全过程,包括Idea的基本设置、Maven的配置与添加、爬虫框架WebMagic的使用以及调试和数据处理方法。详细讲解了如何解决配置过程中的SLF4J报错、Http请求实现、字符串与数组转换等问题,提供了单元测试和单步调试的技巧。
摘要由CSDN通过智能技术生成

logo

完整文章地址

idea基本设置

File>Setting打开idea基本设置,可以更改字体主题,安装插件等

建议安装中文翻译插件和Codota插件

image-20210507095023736

idea创建项目

1.参考文章

IDEA新建一般Java项目

语言版本和环境版本不一致导致错误:Error:java: 无效的源发行版

2.注意事项
(1)配置

新建一般Java项目时,一般选择默认配置进行

(2)打开项目

打开的项目文件时,文件结构如下,文件路径多出一层或少一层文件,idea都不能识别出该项目(程序文件都要放到src文件中):

image-20210507092554533

(3)配置修改

项目结构(文件 > 项目结构)中可以修改项目的一些配置(可设置项目,模块的语言级别)

image-20210507095156216

(4)标记目录

标记目录可以自定义源根目录等,一般不改动,默认src为源根目录

(5)添加Maven框架

在Java一般项目中没有meavn的选项,可以在后期加上Maven框架支持

image-20210507101055813

添加了Maven框架后,还需要重新加载Maven项目即可完成框架添加

image-20210507101357206

配置meavn

1.参考文章

Meavn配置过程

依赖添加错误

手动添加jar包

2.注意事项
(1)maven配置

idea有自己自带的maven,如果想自定义到自己下载的maven文件,可以在设置中修改(这样的修改只是针对该项目,新建的项目还是使用默认的maven)

image-20210507100212095

  • 设置主目录
  • 用户设置文件指向maven的setting文件
  • 可以新建一个文件用于存储本地库
(2)Meavn创建项目

除了在一般项目创建后再添加Maven框架,我们也可以直接使用Meavn框架创建项目

image-20210507101919573

区别于一般的Java项目,使用Meavn框架创建的会在src新建两个文件夹:main(放主程序)和test(放测试程序)

(3)meavn添加包
  • 通过pom.xml添加依赖

在pom.xml文件中添加<dependency></dependency>标签,如下

<dependency>
    <groupId>org.apache.maven.plugins</groupId>
     <artifactId>maven-compiler-plugin</artifactId>
     <version>3.6.1</version>
 </dependency>

要注意要是在<dependencies></dependencies>内添加依赖

我们可以通过Maven Repositor查找对应包的依赖项xml文本

最后加载Maven包变更完成依赖项的添加

image-20210507103208170

  • 手动添加jar包

meavn找不到相关包时,可以直接下载jar文件到本地包,放在刚刚设置Maven本地库存储文件中,然后使用maven导入

爬虫配置

1.参考文章

WebMagic 文档

出现log4j警告解决方法

出现了SLF4J的报

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值