kettle案例4.2.1--抽取Web数据---HTML网页的数据抽取

该博客介绍了如何使用Kettle工具从HTML网页中抽取数据,以豆瓣电影排行榜为例,详细讲解了配置自定义常量数据、HTTP client和Java代码控件的步骤,实现了从网页到数据库的数据提取过程。
摘要由CSDN通过智能技术生成

kettle案例4.2.1–抽取Web数据—HTML网页的数据抽取

抽取Web数据主要是获取网页上的数据。Web网页上出现的数据形式主要有三种,分别是HTML形式、XML形式以及JSON形式。

HTML网页的数据抽取

HyperText Markup Language,简称HTML,即超文本标记语言,它包含了一套标记标签,主要用于创建和描述网页
HTML可以以文档的形式展示,HTML文档中包含HTML标签和纯文本。其中,HTML标签是由尖括号括起来的关键词,例如 和、和、和等标签,这些标签通常以第一个标签(如标签)为开始标签,第二个标签(如标签)为结束标签的方式成对出现。在标签内部可以定义id,用于标签的唯一标识;也可以定义class,用于一组标签的标识。

基于数据库技术的HTML网页抽取技术的研究经过了人工、半自动化和全自动化方法的三个阶段:

  • 人工方法,通过程序员人工分析出网页的模板,借助一定的编程语言,针对具体的问题生成具体的包装器。
  • 半自动化方法,应用网页模板抽取数据,从而生成具体包装器的部分被计算机接管,而网页模板的分析仍然需要人工参与。
  • 自动化方法中,网页模板的分析部分也交给了计算机进行,仅仅需要很少的人工参与或完全不需要人工参与,因而更加适合大规模、系统化、持续性的Web数据抽取。

案例介绍

通过Kettle工具抽取HTML网页的数据,并保存至数据库extract中的数据表html中

数据准备

这里以抽取“豆瓣电影排行榜”网页的超链接数据为例进行抽取数据,豆瓣电影排行榜页面的部分内容如图所示。

在这里插入图片描述

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值