非结构化的例子:
"有个学生叫李小萌,女的,20岁,人大经济系18级的,辽宁的"
"还有个学生叫张小明,97年的,性别男,清华的,数学系18级的,福建厦门的"
.......
这种数据存在电脑里,可以是随便一个文本文件里的一行。如果有很多学生,很多行。
比如,现在有10万行。
但领导提出要统计下96年的学生的性别比例,学校比例,籍贯(省)比例。你咋办?
于是你决定,把这些数据“结构化”,分解出若干重要的信息单独存储。于是你做了个excel表,各个列包括姓名,性别,校系,出生年月,籍贯省,把这十万条信息重新输入。这样,领导要什么数据就可以统计了。
后来你发现,10万行的文件,excel打开一次都要好几分钟,好像要死机似的。另外如果另外有些新增数据是由其他人负责录入的,而每次他更改后,都得把新文件发给你(和其他人),时间一长哪个忘了把新文件覆盖旧文件,大家的数据就不一致了。
于是你安装了一个关系型数据库(比如mysql),建了一张表(students),里面有若干字段(name,gender,college......),然后把那些excel的数据设法导入进了数据库。负责录入新数据的都往这个数据库里更新(不用群发文件了),统计各种数据都从这个数据库里读,另外统计一次结果可能只需要0.01秒而不是excel的半小时。