kettle案例4.2.1--抽取Web数据---HTML网页的数据抽取

最新推荐文章于 2024-08-22 08:20:35 发布

sudo-w

最新推荐文章于 2024-08-22 08:20:35 发布

阅读量2.1k

点赞数

分类专栏： ETL数据清洗--Kettle案例文章标签：前端 html java etl工程师

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68381568/article/details/128020623

版权

该博客介绍了如何使用Kettle工具从HTML网页中抽取数据，以豆瓣电影排行榜为例，详细讲解了配置自定义常量数据、HTTP client和Java代码控件的步骤，实现了从网页到数据库的数据提取过程。

摘要由CSDN通过智能技术生成

kettle案例4.2.1–抽取Web数据—HTML网页的数据抽取

抽取Web数据主要是获取网页上的数据。Web网页上出现的数据形式主要有三种，分别是HTML形式、XML形式以及JSON形式。

HTML网页的数据抽取

HyperText Markup Language，简称HTML，即超文本标记语言，它包含了一套标记标签，主要用于创建和描述网页。
HTML可以以文档的形式展示，HTML文档中包含HTML标签和纯文本。其中，HTML标签是由尖括号括起来的关键词，例如和、和、和等标签，这些标签通常以第一个标签（如标签）为开始标签，第二个标签（如标签）为结束标签的方式成对出现。在标签内部可以定义id，用于标签的唯一标识；也可以定义class，用于一组标签的标识。

基于数据库技术的HTML网页抽取技术的研究经过了人工、半自动化和全自动化方法的三个阶段:

人工方法，通过程序员人工分析出网页的模板，借助一定的编程语言，针对具体的问题生成具体的包装器。
半自动化方法，应用网页模板抽取数据，从而生成具体包装器的部分被计算机接管，而网页模板的分析仍然需要人工参与。
自动化方法中，网页模板的分析部分也交给了计算机进行，仅仅需要很少的人工参与或完全不需要人工参与，因而更加适合大规模、系统化、持续性的Web数据抽取。

案例介绍

通过Kettle工具抽取HTML网页的数据，并保存至数据库extract中的数据表html中

数据准备

这里以抽取“豆瓣电影排行榜”网页的超链接数据为例进行抽取数据，豆瓣电影排行榜页面的部分内容如图所示。

在这里插入图片描述

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。