webmagic手把手教你写爬虫

本文介绍了如何使用webmagic框架爬取csdn博客网站的新文章。通过maven搭建环境,利用xpath解析HTML,展示了抓取特定元素的技巧。讲解了选取唯一性元素作为定位,并提供了代码示例,将爬取结果打印输出。
摘要由CSDN通过智能技术生成

    不知道这样合不合适,因为webmagic是黄亿华大神的作品,我在这只是写一下自己的心得,希望帮助大家更好的上手,毕竟大神考虑的想法和我们小虾还是有很大的差别的,至少之前我理解起来还是有点困难。

    本文以爬取csdn博客网站为例(https://blog.csdn.net/nav/newarticles )。webmagic是什么,简单来说是一个爬虫框架(废话)。他能够更加简单的进行爬虫,本质上就是httpclient(httpclient是什么,不需要知道,只需要知道用它能够获取到网页数据即可)模拟请求获得html页面然后根据xpath(xpath是什么,不需要知道,只需要知道我告诉你的几个常用语法即可)进行解析。

 

PS:是不是有点不负责任,这个也不讲清楚,那个也不说明白。其实不是我不想说,是因为我说的都不如百度上面写的好,所以说了没用,我就算粘贴过来别人也不看,所以没用,我觉得只要会用就好了。马老师(马士兵)教育我们说学习编程都是先学脉络在学细节,我想说的是我就交你们脉络,因为细节我也在学习,哈哈~~

 

    好,开始学习。

    首先是环境搭建,最好用maven工程,本例子也是maven工程实现的。pom配置如下:

<project xmlns="http://maven.apache.org/POM/4.0.0"
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:s
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值