大数据技术导论学习笔记
文章平均质量分 77
程序小猴_
此人不懒,但什么也没写
展开
-
第五章 决策树和随机森林
决策树定义:由节点和分支组成的像流程图的结构。在每个节点上,根据其中一个输入特征对数据分割,产生两个或更多分支作为输出。在接下来的节点中进行更多的分割,产生许多分支对原始数据进行分区。这种情况一直持续直到产生一个节点,其中所有或几乎所有的数据都属于同一个类,并且不能再进行进一步的分割。使用者不需要知道很多背景知识,只要训练案例能表示成属性→结论的形式,决策树就可以应用了高效率,适用于大型数据集简单直观的树状结构,可以转换成if→then形式,易于理解有高的分类准确度(accuracy)原创 2023-11-15 20:38:34 · 62 阅读 · 0 评论 -
第六章 大数据隐私:匿名数据技术
元组抑制:针对QI,即使包含准身份识别标志也不能链接到隐私表格, 缺失元组能在所有元组的所属空间中取任意值 ,引入很多不确定性,数据有用性降低。交互式模型:数据所有者充当数据的看门人,研究人员以约定的方式查询,数据所有者给出匿名化回答,或者不回答。K-匿名规则:当且仅当每个元组在T[QI]中至少出现k次,则表T满足关于准标识符QI的k-匿名。K-匿名:如果T’是T的一个泛化或抑制,并且T’满足K-匿名规则,那么表T’是T的一个k-匿名。实验评估:在合理的工作量下进行实验,与在原始数据集上的结果进行比较。原创 2023-11-16 22:01:15 · 114 阅读 · 1 评论 -
第四章 分析和可视化
分类和回归分析、相关分析、聚类分析、关联规则挖掘、异常检测等,分为预测和描述两大类。预测:根据其他属性的值预测特定属性的值,在数据上进行归纳以做出预测。描述:导出和概括数据的潜在模式(相关,趋势,聚类),刻画目标数据的一般性质。原创 2023-11-14 16:15:00 · 72 阅读 · 0 评论 -
第一章 引论
数据源→收集→存储→处理→可视化→报告监控。原创 2023-11-03 16:53:36 · 68 阅读 · 2 评论 -
第二章 数据获取
在互联网上可获得的,但是传统的搜索引擎由于技术限制不能或者慎重考虑后不愿意做索引的那些网页、文件或者其他高质量、权威的信息。原创 2023-11-08 20:04:41 · 69 阅读 · 1 评论 -
第三章 存储与管理
开源实现了GFSHadoop的框架最核心的设计是HDFS和MapReduce,前者为海量数据提供了存储,后者为海量的数据提供了计算。特点:兼容廉价的硬件设备,流式数据访问,存储和管理超大文件,简单的文件模型,强大的跨平台兼容性。体系结构:主要采用Master-Slave结构模型。一个HDFS集群通常由一个名称节点和多个数据节点组成。将文件数据分割成若干数据块,每个数据节点存储一部分数据块,应用程序客户端可以并行地对这些数据块进行访问。原创 2023-11-12 10:35:00 · 56 阅读 · 0 评论