- 博客(6)
- 问答 (1)
- 收藏
- 关注
原创 第六章 大数据隐私:匿名数据技术
元组抑制:针对QI,即使包含准身份识别标志也不能链接到隐私表格, 缺失元组能在所有元组的所属空间中取任意值 ,引入很多不确定性,数据有用性降低。交互式模型:数据所有者充当数据的看门人,研究人员以约定的方式查询,数据所有者给出匿名化回答,或者不回答。K-匿名规则:当且仅当每个元组在T[QI]中至少出现k次,则表T满足关于准标识符QI的k-匿名。K-匿名:如果T’是T的一个泛化或抑制,并且T’满足K-匿名规则,那么表T’是T的一个k-匿名。实验评估:在合理的工作量下进行实验,与在原始数据集上的结果进行比较。
2023-11-16 22:01:15 114 1
原创 第五章 决策树和随机森林
决策树定义:由节点和分支组成的像流程图的结构。在每个节点上,根据其中一个输入特征对数据分割,产生两个或更多分支作为输出。在接下来的节点中进行更多的分割,产生许多分支对原始数据进行分区。这种情况一直持续直到产生一个节点,其中所有或几乎所有的数据都属于同一个类,并且不能再进行进一步的分割。使用者不需要知道很多背景知识,只要训练案例能表示成属性→结论的形式,决策树就可以应用了高效率,适用于大型数据集简单直观的树状结构,可以转换成if→then形式,易于理解有高的分类准确度(accuracy)
2023-11-15 20:38:34 62
原创 第四章 分析和可视化
分类和回归分析、相关分析、聚类分析、关联规则挖掘、异常检测等,分为预测和描述两大类。预测:根据其他属性的值预测特定属性的值,在数据上进行归纳以做出预测。描述:导出和概括数据的潜在模式(相关,趋势,聚类),刻画目标数据的一般性质。
2023-11-14 16:15:00 72
原创 第三章 存储与管理
开源实现了GFSHadoop的框架最核心的设计是HDFS和MapReduce,前者为海量数据提供了存储,后者为海量的数据提供了计算。特点:兼容廉价的硬件设备,流式数据访问,存储和管理超大文件,简单的文件模型,强大的跨平台兼容性。体系结构:主要采用Master-Slave结构模型。一个HDFS集群通常由一个名称节点和多个数据节点组成。将文件数据分割成若干数据块,每个数据节点存储一部分数据块,应用程序客户端可以并行地对这些数据块进行访问。
2023-11-12 10:35:00 56
空空如也
从2013年以后除了双休日输出就不对了,感觉是计算第几周时出了问题
2023-05-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人