当前及今后很长的时期内,大数据将成为开发和应用的重点。相比于其他领域的大数据,例如交通大数据、金融大数据、医疗大数据、政务大数据等等,互联网大数据的开放性更好、具备大数据的各种典型特征,是学习大数据技术最好的切入点。
本文整理了互联网大数据相关重要技术的知识图谱,描绘了主要知识点、知识基础及其它们之间的主要关系。这些技术包括互联网大数据采集、信息提取技术、非结构数据的结构化、大数据语义技术、分析模型算法、隐私保护等。《互联网大数据处理技术与应用》的读者可以根据这些图示进行知识点的整理、学习。
1、爬虫采集技术
爬虫技术包括了普通爬虫、主题爬虫、DeepWeb爬虫等,技术的知识结构上,以HTML语言、Web服务器软件技术为基础,涉及到正则表达式、Robots协议、PR算法、以及数据结构中的队列、栈和图等。
2、Web信息提取
Web信息提取是从HTML编码的页面中提取我们想要的信息内容,除了简单的字符串匹配外,主流的方法是基于DOM树,使用基于路径、CSS等来定义要抽取的单元。技术上相对成熟,但是如何编写一个适应能力强的程序是一个富有挑战的课题,基于统计的方法则是其中的一个途径。
3、结构化处理技术
结构化处理是指对文本之类的非结构化数据进行结构化处理,以便更时候后续的分析与挖掘。词汇切分则是其中的核心,基于词典的方法是一种经典方法,统计和序列标注的方法则是研究的前沿与发展方向。其中涉及一些基本的数学模型。
4、大数据语义技术
大数据语义是大数据处理的重点和难点,是挖掘大数据价值的真正手段,包含了词汇级别、句子级别的语义分析技术。语义分析本身是一个很难的问题,相关技术研究仍然非常活跃。
5、大数据分析模型与算法
这部分的算法模型很多,大都是基于传统数据挖掘研究的成果,针对大数据分析挖掘做了相应的改进,例如算法的并行化技术等。
6、大数据隐私保护
码字不易,如果您觉得文章写得不错,
请您 1.关注作者~ 您的关注是我写作的最大动力
2.私信我“大数据”
我将与您分享一套最新的大数据学习资源和全套开发工具