基于Webmagic的Java爬虫（二）爬取当前页内容

最新推荐文章于 2023-02-18 19:50:32 发布

Ada5899

最新推荐文章于 2023-02-18 19:50:32 发布

阅读量1.1k

点赞数 1

分类专栏： Java爬虫（Webmagic）文章标签： Webmagic Java爬虫 Java

本文链接：https://blog.csdn.net/Ada5899/article/details/88783981

版权

本文介绍如何利用Webmagic Java爬虫框架，爬取电影天堂网站的电影详情页，包括电影名称和下载链接。首先确定目标，然后解析首页获取电影详情页链接，接着分析电影详情页正则表达式，最后展示实现代码和运行结果。

摘要由CSDN通过智能技术生成

基于Webmagic的Java爬虫（二）

一、目标：
获取（电影天堂）电影详情页链接，再获取电影名字和下载地址，并在控制台输出。

二、步骤：

爬取(电影天堂：https://mp.csdn.net) 首页电影详情的所有链接。
要爬取的内容：
按 F12 查看页面的源码，写出电影详情页正则：//div[@class=‘co_content4’]/ul/a[@href]
点击电影详情链接，观察地址栏，写出电影详情页的正则，作为判断的依据。正则为：http://www.dytt8.net/html/gndy/\w{4}/\d{8}/\d{5}.html
查看电影详情页网页源码，写出电影名称和电影下载链接的正则：
电影名称正则：//div[@class=‘title_all’]/h1/font/text()
电影下载链接正则：//a[starts-with(@href,‘ftp’)]/text()

三、代码：

package ang.one;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ada5899

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

基于 webmagic 的 Java 爬虫应用：爬取企信网企业基本信息.zip

03-23

WebMagic 是一个强大的、模块化的 Java 爬虫框架，适用于构建高效、灵活的网络爬虫项目。本项目是关于如何使用 WebMagic 框架来爬取企信网的企业基本信息，以下将详细介绍这一过程。首先，了解 WebMagic 的核心...

java爬取网页数据库_java 使用webmagic爬虫框架爬取博客园数据存入数据库

weixin_30569303的博客

02-13

389

webmagic简介：WebMagic是一个简单灵活的Java爬虫框架。你可以快速开发出一个高效、易维护的爬虫。http://webmagic.io/准备工作：Maven依赖(我这里用的Maven创建的web项目做测试)：View Code数据库表SQL：CREATE TABLE `Boke` (`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id',`...

参与评论您还未登录，请先登录后发表或查看评论

Webmagic爬取文章列表详情页的两种方式

杀神Jack的博客

07-05

3431

通常webmagic爬取数据，无非就是分析页面结构，然后解析数据，一般这种类型的页面，网站都是get请求。但是有些数据，是通过js渲染的，通过post请求获取到json数据，然后渲染到页面上。所以针对这种类型的网站单单通过分析页面结构是行不通的，所以则需要模拟post请求返回数据，然后进行获取。准备工作：导入需要的maven依赖包 <dependency> ...

如何用java中的webmagic爬取网页

林老师带你学编程

12-20

598

说到爬虫，大家第一个想到的肯定是python的scrapyd爬虫。但是大家不知道吧，我们的java也有相应的爬虫工具。今天就给大家介绍一下我们java的爬虫工具。我们今天要介绍的爬虫工具，名字叫做webmagic，webmagic的架构图如下所示：如图所示，它主要分为四个部分： Downloader(页面下载) PageProcessor(页面分析及链接抽取) Scheduler...

使用WebMagic进行java爬虫的总结

LJWWD的博客

03-01

1539

WebMagic介绍 WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy，目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。扩展部分(webmagic-extension)提供一些便捷的功能，例如注解模式编写爬虫等。同时内置了一些常用的组件，便于爬虫开发。 WebMagic的中文文档

Java爬虫-基于WebMagic爬取某豆瓣电影评论

Victor.Chang

01-15

3166

目的搭建爬虫平台，爬取某豆瓣电影的评论信息。准备 webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic的核心非常简单，但是覆盖爬虫的整个流程，也是很好的学习爬虫开发的材料。下载WebMagic源码，或Maven导入，或Jar包方式导入。码云地址：https://gitee.com/flashsword20/webmagic 试运行搭建好后打开项目，在us.codecraft.webmagic.processo...

java爬虫，利用代理IP爬取大众点评网站内容.zip

03-08

反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施，如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等...

java爬虫webmagic抓取静态页面demo

05-16

Java爬虫WebMagic是开发者常用来抓取网页数据的一个强大工具，尤其对于处理静态页面，它的易用性和灵活性使得在Java开发环境中非常受欢迎。WebMagic的设计理念是模块化，这使得我们可以灵活地组合各个组件来实现不同...

一个基于webmagic新闻爬虫系统

04-08

一个基于webmagic框架二次开发的java爬虫框架实战，已实现能爬取腾讯，搜狐，今日头条（单独集成功能）等资讯内容，配合elasticsearch框架用法，实现了自动爬虫，已投入线上生产使用，可以用于毕业设计（项目源码+...

基于 webmagic 的 Java 爬虫应用.zip

最新发布

05-30

【标题】: "基于 webmagic 的 Java 爬虫应用" 在编程领域，爬虫是一种自动化获取网页数据的工具，而Java作为一门广泛使用的编程语言，有着丰富的库支持爬虫开发。本项目“基于 webmagic 的 Java 爬虫应用”就是这样...

WebMagic的学习（二）——实现PageProcessor以及爬虫demo

有问题请发邮箱dengyifanlittle@163.com进行讨论

12-27

4010

一、爬虫实例爬取csdn个人主页，先进入主页，我们发现列表页是这样的规则 https://blog\\.csdn\\.net/qq_41061437/article/details/1 只有后面的数字会发生变化，因此可以用正则表达式： "https://blog\\.csdn\\.net/qq_41061437/article/list/\\d，定义一个URL_LIST: pub...

初识WebMagic之爬豆瓣影院

a81579261的博客

12-13

256

背景前文说到我正开发一个全民爬虫的网站，然而这一举措被我一深圳老哥知道了，提了个需求给我，让我去爬取某网站的数据，然后我发现该网站数据不是前端渲染的，这样的话，我之前的应用就毫无用武之地了。接着，我打算参照Webcollector的POST Demo重新再写一套方法，结果。。。。。。不堪入目（搞不掂，而且Webcollector框架目前我理解不了）。杜某曰：“打不赢就加入。”，然后我就发现Web...

Java爬虫采集电影,java的webmagic爬虫实现爬出某电影网的下载地址

weixin_36302350的博客

03-22

834

事先说明不要用这技术，做一些违法的事情，网上玩爬虫的已经有还能多被抓了，此文就是为了学习webmagic源码地址：https://github.com/smltq/spring-boot-demo/tree/master/webmagicDetailPageProcesser类package com.qf.webmagic.controller;import us.codecraft.webmag...

利用WebMagic爬豆瓣电影数据（注解版本）

robinson_911的专栏

01-29

476

WebMagic爬数据（注解版本）官方资料：http://webmagic.io/docs/zh/posts/ch5-annotation/ 继上一篇爬虫文章后，再用注解版来抓取点数据。一.目标页面（https://www.douban.com/doulist/3907668）爬取豆瓣电影数据（电影名字，评分，导演信息，电影信息）界面如下图：二. 注解版本源码分析现在只爬取单个页面的电影数据，这里写死这个页面@TargetUrl(value = "(https://www.douban

Java数据采集：Xpath解析 + WebMagic案例：采集豆瓣豆列电影信息存储MySql数据库

坚决不做秃头少女

10-18

1572

Maven的安装与设置环境变量 1. 下载Maven：http://maven.apache.org/download.cgi 2. 设置环境变量新建变量MAVEN_HOME，值为Maven的目录X:\XXX\apache-maven-XXX 将%MAVEN_HOME%\bin添加到Path变量下 3. 检测：运行CMD，输入mvn -v后可以看到Maven的版本信息等则表示安装成功 ...

Java爬虫——WebMagic案例

qq_52655865的博客

02-18

2209

抓取51Job的招聘信息。

Java 基于webmagic框架进行爬取页面数据

如漩涡的博客

02-12

2263

爬虫框架网络上一搜一大把，看个人觉得哪款爬虫框架比较适用自己，刚开始我接触使用的是xxl-crawler，经过几次测试实现，虽然这个框架不错，功能丰富，但跟我当时的需求来说并不满足，或许是我还没研究深，不太会用，时间有限，我选择了去找其他框架，后来接触了webmagic，操作简单方便，可以多次深入爬取，以及css，$，xpath都支持，还有获取单条数据或者多条数据的选择，正好符合我想要的，就着手研...

WebMagic爬取《哪吒》豆瓣影评

记录，记录，记录

08-26

392

1.前言前言：在某大佬的公总号上看到使用Python爬取《哪吒》影评的项目小样，心痒痒，我也想用Java来搞一搞，遂动手。项目基础： 1. JavaClient，Jsoup了解下。 2. WebMagic框架熟悉：WebMagic官网，挺简单的。3，老三件套ssm，mybatis用的是mybatis-plus，mysql 2.项目目标：爬取哪吒豆瓣影评的信息→爬取信息：用户姓名...

Java爬虫爬取网页图片的实现代码解析

"Java爬虫实现爬取网站图片的实例代码" 在Java中实现一个爬虫来抓取网站上的图片，通常需要以下步骤： 1. **URL管理：**首先，我们需要一个机制来管理已访问和未访问的URL。在提供的代码中，定义了一个名为`...