自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

2201_75466929的博客

原创第六章大数据隐私：匿名数据技术

元组抑制：针对QI,即使包含准身份识别标志也不能链接到隐私表格，缺失元组能在所有元组的所属空间中取任意值，引入很多不确定性，数据有用性降低。交互式模型：数据所有者充当数据的看门人，研究人员以约定的方式查询，数据所有者给出匿名化回答，或者不回答。K-匿名规则：当且仅当每个元组在T[QI]中至少出现k次，则表T满足关于准标识符QI的k-匿名。K-匿名：如果T’是T的一个泛化或抑制，并且T’满足K-匿名规则，那么表T’是T的一个k-匿名。实验评估：在合理的工作量下进行实验，与在原始数据集上的结果进行比较。

2023-11-16 22:01:15 114 1

原创第五章决策树和随机森林

决策树定义：由节点和分支组成的像流程图的结构。在每个节点上，根据其中一个输入特征对数据分割，产生两个或更多分支作为输出。在接下来的节点中进行更多的分割，产生许多分支对原始数据进行分区。这种情况一直持续直到产生一个节点，其中所有或几乎所有的数据都属于同一个类，并且不能再进行进一步的分割。使用者不需要知道很多背景知识，只要训练案例能表示成属性→结论的形式，决策树就可以应用了高效率，适用于大型数据集简单直观的树状结构，可以转换成if→then形式，易于理解有高的分类准确度(accuracy)

2023-11-15 20:38:34 62

原创第四章分析和可视化

分类和回归分析、相关分析、聚类分析、关联规则挖掘、异常检测等，分为预测和描述两大类。预测：根据其他属性的值预测特定属性的值，在数据上进行归纳以做出预测。描述：导出和概括数据的潜在模式（相关，趋势，聚类），刻画目标数据的一般性质。

2023-11-14 16:15:00 72

原创第三章存储与管理

开源实现了GFSHadoop的框架最核心的设计是HDFS和MapReduce，前者为海量数据提供了存储，后者为海量的数据提供了计算。特点：兼容廉价的硬件设备，流式数据访问，存储和管理超大文件，简单的文件模型，强大的跨平台兼容性。体系结构：主要采用Master-Slave结构模型。一个HDFS集群通常由一个名称节点和多个数据节点组成。将文件数据分割成若干数据块，每个数据节点存储一部分数据块，应用程序客户端可以并行地对这些数据块进行访问。

2023-11-12 10:35:00 56

原创第二章数据获取

在互联网上可获得的，但是传统的搜索引擎由于技术限制不能或者慎重考虑后不愿意做索引的那些网页、文件或者其他高质量、权威的信息。

2023-11-08 20:04:41 69 1

原创第一章引论

数据源→收集→存储→处理→可视化→报告监控。

2023-11-03 16:53:36 68 2

空空如也

从2013年以后除了双休日输出就不对了，感觉是计算第几周时出了问题

2023-05-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

程序小猴_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

6: 原创

158万+: 周排名

30万+: 总排名

441: 访问

: 等级

86: 积分

4: 粉丝

6: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

分类专栏

最新评论

第六章大数据隐私：匿名数据技术
CSDN-Ada助手: 恭喜博主撰写了第六篇博客，标题为“大数据隐私：匿名数据技术”。这篇博客的内容非常有意义，探讨了大数据隐私保护中的匿名数据技术。我对你持续创作的热情深感钦佩。在下一步的创作中，或许可以进一步探索匿名数据技术的实际应用案例，以及对隐私保护的影响。期待你的下一篇博客！
第一章引论
解: 找虫：第三大点“科学研究第四范式” 第是不是改成的
第二章数据获取
CSDN-Ada助手: 非常棒的博客！你在这篇博文中详细介绍了数据获取的重要性。我鼓励你继续创作，因为你的文章能够帮助读者更好地理解这个主题。除了你在标题和摘要中提到的内容，还有一些与数据获取相关的知识和技能可以进一步拓展。例如，你可以探讨数据爬取的技术和工具，如网络爬虫和数据挖掘算法。此外，你还可以介绍如何处理大规模数据集，包括数据清洗、数据存储和数据分析等方面的技巧。希望你在未来的博文中能够扩展这些知识，并且将它们与数据获取的重要性结合起来。再次感谢你的分享，期待看到更多精彩的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

提示

确定要删除当前文章？

取消删除