清华大学范玉顺互联网与大数据_2020年互联网大数据技术的知识图谱

当前及今后很长的时期内,大数据将成为开发和应用的重点。相比于其他领域的大数据,例如交通大数据、金融大数据、医疗大数据、政务大数据等等,互联网大数据的开放性更好、具备大数据的各种典型特征,是学习大数据技术最好的切入点。

本文整理了互联网大数据相关重要技术的知识图谱描绘了主要知识点、知识基础及其它们之间的主要关系。这些技术包括互联网大数据采集、信息提取技术、非结构数据的结构化、大数据语义技术、分析模型算法、隐私保护等。《互联网大数据处理技术与应用》的读者可以根据这些图示进行知识点的整理、学习。

1、爬虫采集技术

爬虫技术包括了普通爬虫、主题爬虫、DeepWeb爬虫等,技术的知识结构上,以HTML语言、Web服务器软件技术为基础,涉及到正则表达式、Robots协议、PR算法、以及数据结构中的队列、栈和图等。

00e93bb4a3fbfdd4bdb1541c312477ad.png

2、Web信息提取

Web信息提取是从HTML编码的页面中提取我们想要的信息内容,除了简单的字符串匹配外,主流的方法是基于DOM树,使用基于路径、CSS等来定义要抽取的单元。技术上相对成熟,但是如何编写一个适应能力强的程序是一个富有挑战的课题,基于统计的方法则是其中的一个途径。

3、结构化处理技术

结构化处理是指对文本之类的非结构化数据进行结构化处理,以便更时候后续的分析与挖掘。词汇切分则是其中的核心,基于词典的方法是一种经典方法,统计和序列标注的方法则是研究的前沿与发展方向。其中涉及一些基本的数学模型。

c2213ef289bd2eebc7ad1914bfc33d04.png

4、大数据语义技术

大数据语义是大数据处理的重点和难点,是挖掘大数据价值的真正手段,包含了词汇级别、句子级别的语义分析技术。语义分析本身是一个很难的问题,相关技术研究仍然非常活跃。

ffd3d9b52fb38908b429f84177b5a6f9.png

5、大数据分析模型与算法

这部分的算法模型很多,大都是基于传统数据挖掘研究的成果,针对大数据分析挖掘做了相应的改进,例如算法的并行化技术等。

fae79c03986ac248a71dbfd4afb79492.png

6、大数据隐私保护

38beb953acfd77f7370c8434a42817d4.png

码字不易,如果您觉得文章写得不错,

请您 1.关注作者~ 您的关注是我写作的最大动力

2.私信我“大数据”

我将与您分享一套最新的大数据学习资源和全套开发工具

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值