从结构化文本文件中提取数据
UNIX 管理性文件,大部分放在标准目录:/etx 下,有: 密码文件与组文件、文件系统加载表、主机文件,以及默认的shell启动文件 ,系统启动与开关的shell 脚本;
还行 man 5 passw的 可以看到 /etc/passwd 相关信息;
面的七个字段:
1、用户名称
2、家吗的密码或者之处密码存储于另一个文件中
3、用户组ID数字
4、用户只要ID数字
5、用户姓名 或者其他相关数据
6、根目录
7、登录的shell
针对WEB的结构型数据
web 文件多半都是有HTML(Hyper Text Markup Language )语言组成的 ,是Standard Generalized Markup Language (SGML)家族语言之一,而SGML自1986年起,陆续被定义在数个ISO标准中 。
转换过滤器步骤:
1、输出前置的样板文件知道内文开始处
2、将名录俐的每一行包括在表格标记里,
3、输出结尾的样板文件