WebMagic(一)-----初步使用

本文档介绍了如何使用WebMagic进行初步的网页抓取。首先,通过创建Maven项目并配置pom.xml来引入webmagic-core和webmagic-extension依赖。接着,遵循官方例子,实现了PageProcessor接口的process()方法,并在main函数中启动Spider。抽取页面元素时,文章提到了XPath、CSS选择器和正则表达式三种方法,分别阐述了它们在WebMagic中的应用。
摘要由CSDN通过智能技术生成

参考文档:http://webmagic.io/docs/zh

1:创建maven项目(官方推荐使用maven)

我使用myeclipse创建后包结构如图所示:

也可以使用创建普通的Java项目导入相关jar包,如图所示

下载路径:https://download.csdn.net/download/qq_39769369/10692739

2、配置pom.xml ----引入webmagic-core、webmagic-extension

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值