kettle案例4.2.1–抽取Web数据—HTML网页的数据抽取
抽取Web数据主要是获取网页上的数据。Web网页上出现的数据形式主要有三种,分别是HTML形式、XML形式以及JSON形式。
HTML网页的数据抽取
HyperText Markup Language,简称HTML,即超文本标记语言,它包含了一套标记标签,主要用于创建和描述网页。
HTML可以以文档的形式展示,HTML文档中包含HTML标签和纯文本。其中,HTML标签是由尖括号括起来的关键词,例如 和、和、和等标签,这些标签通常以第一个标签(如标签)为开始标签,第二个标签(如标签)为结束标签的方式成对出现。在标签内部可以定义id,用于标签的唯一标识;也可以定义class,用于一组标签的标识。
基于数据库技术的HTML网页抽取技术的研究经过了人工、半自动化和全自动化方法的三个阶段:
- 人工方法,通过程序员人工分析出网页的模板,借助一定的编程语言,针对具体的问题生成具体的包装器。
- 半自动化方法,应用网页模板抽取数据,从而生成具体包装器的部分被计算机接管,而网页模板的分析仍然需要人工参与。
- 自动化方法中,网页模板的分析部分也交给了计算机进行,仅仅需要很少的人工参与或完全不需要人工参与,因而更加适合大规模、系统化、持续性的Web数据抽取。
案例介绍
通过Kettle工具抽取HTML网页的数据,并保存至数据库extract中的数据表html中