置身于大数据时代,组织和企业的不同系统、流程和交易会产生的大量的数据,在管理这些数据时碰到了不少困难。而且,由于大数据对3V一词(volume、variety、velocity)的模糊定义,大数据一词也经常错误使用。有时候很难去量化什么样的数据才是“大”数据,一些人认为数据库里成10亿条的记录就是“大数据”,但是这个量级与传感器或者社交媒体产生的pb级数据相比,又显得很小。总而言之,普遍任务在所有组织中,无论是什么行业,都存在大量的非结构化文本数据。例如,大量的数据可能以tweet、状态消息、散列标签、文章、博客、wiki等形式出现在社交媒体上,另外,零售和电商也会生成大量的文本数据,如从新产品信息和到客户评论和反馈产生的元数据信息,凡此种种,皆有可能。
与文本数据相关联的挑战主要有两个,第一个挑战就是如何有效地存储和管理这些数据。文本数据通常以非结构化的形式存在,且不遵循任何特定的预设数据模型,也不符合关系型数据库的模式(Schema)定义。不过,基于语句的语义(semantics),可以存储在基于SQL的数据管理系统中,如SQL Server或MySQL,也可以存储在基于NoSQL的系统,如MongoDB、CouchDB等,最近以来,也常存储在基于信息检索的数据存储中,如ElasticSearch和Solr。
拥有大量文本数据集的组织通常将数据保存在数据仓库和基于文件的系统当中,如Hadoop,在Hadoop上可以将所有数据转储到HDFS(Hadoop分布式文件系统)上按需访问,这也是数据湖的主要设计原则之一。
第二个与分析文本数据相关的挑战就是如何从中获取有意义、有价值的信息。虽然现在我们拥有大量的机器学习和数据分析技术&#x