- 博客(35)
- 收藏
- 关注
原创 《滴滴出行》案例分析报告
在滴滴智能交通云平台上,通过收集到的出行大数据,可以实现区域热力图、OD数据分析、城市运力分析、城市交通出行预测、城市出行报告以及信号灯动态配时等,同时还能在公共出行服务,比如实时路况、实时公交、ETA、城市运力补充等方面发挥巨大价值。司机接单后,平台会向用户发送司机信息和预计到达时间,让用户实时了解车辆动态。公交信息整合功能为用户提供实时公交到站信息、换乘方案等,方便用户规划车费垫付功能解决了用户临时资金不足的问题,平台先行垫付车费,用户后续还款,保障了司机的收入和用户的出行便利。
2025-06-05 15:12:31
704
1
原创 K-匿名模型
K-匿名模型是一种隐私保护技术,通过数据泛化和抑制操作,确保发布数据中的每条记录至少与其他K-1条记录在准标识符(QIDs)上不可区分,防止个体被重新识别。其核心是抵御链接攻击,适用于医疗、普查等敏感数据的公开场景。虽然K-匿名平衡了数据效用与隐私,但仍面临同质性攻击、背景知识攻击等局限。后续改进模型如L-多样性和T-接近性增强了防护,但过度泛化导致的数据效用下降和动态数据失效仍是挑战。该技术直观易实现,但在实际应用中需权衡隐私保护与数据分析需求。
2025-06-02 22:39:23
1269
原创 Laplace 噪声
Laplace噪声是差分隐私中保护敏感数据的核心机制,通过在查询结果中添加符合拉普拉斯分布的随机扰动,使攻击者无法推断个体信息。其关键参数包括隐私预算ε(决定保护强度)和查询函数的全局敏感度Δf(衡量数据变化对结果的最大影响)。实现时,通过均匀随机数转换生成标准拉普拉斯噪声,再按b=Δf/ε进行缩放,确保邻近数据集的输出概率比值不超过e^ε,满足差分隐私要求。该机制在计数、求和等统计查询中广泛应用,平衡了隐私保护与数据可用性。
2025-06-02 22:37:58
1137
原创 过滤攻击-隐私保护
摘要: 过滤攻击是一种通过分析公开的聚合数据或匿名化数据集,逆向推断个体敏感信息的隐私攻击手段,与数据隐私保护形成直接对抗。其核心是通过数学模型(如逆函数求解)结合外部知识(如社交媒体数据)重构原始信息,暴露传统隐私保护技术(如K-匿名)的漏洞。典型案例包括Netflix推荐数据攻击,因未添加噪声导致用户身份被关联识别。防御需采用差分隐私(添加可控噪声)或改进匿名化方法(如L-多样性)。过滤攻击推动了隐私技术的演进,凸显数学严谨性(如差分隐私)对抵御重构攻击的关键作用。(150字)
2025-06-01 22:03:01
882
原创 过滤攻击-聚合数据
公开的聚合数据是通过对原始细粒度数据进行后发布的,旨在提供群体层面的洞察而非个体信息。直接标识符(姓名、身份证号、手机号)被删除或泛化(如年龄变为“20-30岁”,地址变为“海淀区”)。个体无法通过聚合数据直接定位到具体人。间接标识符(邮编、性别、职业)组合仍可能通过重新识别个体(如“中关村某科技公司35岁男性高管”可能唯一)。仅发布统计量:计数(某地区病例数)、均值(平均收入)、比例(疫苗接种率)、分位数(收入中位数)、汇总值(GDP)。不包含原始记录(如单条医疗记录)。通过。
2025-06-01 21:54:55
941
原创 Hilbert曲线
Hilbert曲线是一种空间填充曲线,通过递归分形构造将多维空间映射到一维序列,同时保持空间邻近性。其核心优势在于出色的空间局部性保持能力,使得邻近空间点在曲线上也保持相近。这一特性使其广泛应用于多维数据索引、图像处理、并行计算等领域。在差分隐私保护中,Hilbert曲线成为关键工具:通过对空间数据进行Hilbert排序和划分,再添加噪声,既能满足隐私要求,又能最大限度地保留数据的空间聚集特征和统计效用。该技术特别适用于处理具有强聚集性的空间数据,如人口分布、疾病传播和移动轨迹分析,有效缓解了隐私保护与数据
2025-06-01 21:31:34
996
原创 差分隐私-扰动机制
摘要:本文介绍了三种差分隐私保护机制及其应用场景。随机响应机制适用于本地离散数据收集,通过概率扰动保护用户隐私;拉普拉斯机制通过添加重尾噪声为数值型查询提供严格(ϵ-DP)保护,适合小敏感度场景;高斯机制则适用于高维向量处理,提供(ϵ,δ)-DP松弛保证,常用于机器学习梯度保护。三种机制各具特点:随机响应完全本地化但需更大样本量,拉普拉斯严格但噪声较大,高斯适合高维数据但允许极小概率违规。实际应用中需根据数据类型、隐私要求和效用需求进行选择,复杂系统常组合使用多种机制。
2025-05-31 14:27:02
582
原创 随机响应噪声-极大似然估计
随机响应机制通过可控噪声扰动保护隐私,同时利用极大似然估计(MLE)无偏还原数据特征。其核心在于已知噪声分布(如实回答概率p,随机概率1-p)构建观测数据与真实数据的概率映射。对于二值数据,MLE推导可消除扰动偏差,如患病率调查中,传统均值会高估25%,而MLE修正后得到准确结果。MLE的优势在于无偏性、信息高效利用和统计最优性,使其成为噪声机制下参数估计的最佳方法。
2025-05-31 14:25:45
949
原创 联邦学习常见问题
例如神经网络的层参数(如卷积核权重、全连接层偏差)。以图像分类模型为例,本地训练时客户端通过反向传播更新这些参数,仅将更新后的参数上传至服务器。:从横向联邦(数据特征重叠、样本不同)扩展到纵向联邦(样本重叠、特征不同)和联邦迁移学习,应用领域从金融、医疗扩展到物联网等。:医院A本地训练癌症检测模型,参数是卷积核的权重。:开源框架(如FATE、TensorFlow Federated)和行业标准(如IEEE联邦学习标准)逐步完善。:分布式机器学习、隐私保护技术(如差分隐私)的发展为联邦学习奠定基础。
2025-05-30 14:46:20
1379
原创 传统图像分割方法:阈值分割、Canny检测
传统图像分割方法主要包括阈值分割和边缘检测。阈值分割通过设置灰度阈值分离目标与背景,包括固定阈值、迭代阈值、大津法和自适应阈值等方法,但易受光照不均影响。边缘检测算法如Canny通过梯度变化识别目标边界,结合非最大值抑制和双阈值策略提高精度,能有效提取单像素宽边缘并减少噪声干扰。Canny算法包含去噪、梯度计算、非最大值抑制和滞后阈值化四个步骤,具有高精度、抗噪能力和弱边缘检测优势,适用于目标定位和测量。
2025-05-27 20:50:02
1587
原创 计算机与人的关系:从工具到共生
计算机的发展史本质是人类自我延伸的历史:过去:人类是计算机的“程序员”,完全掌控;现在:计算机是人类的“同事”,协作互补;未来:二者可能融合为新的智能形态,重新定义“人”的本质。
2025-05-26 20:52:20
1280
原创 横向联邦学习、纵向联邦学习与联邦迁移学习是联邦学习的三大主要分支
横向联邦学习、纵向联邦学习与联邦迁移学习是联邦学习的三大主要分支,它们的核心区别在于数据分布特征和参与方的数据重叠关系
2025-05-26 20:37:56
665
原创 联邦学习与数据隐私保护之间的联系
参与方(如手机、医院、企业)的原始数据始终保留在本地,仅上传模型参数(如梯度、权重)至中央服务器,避免直接暴露敏感信息。梯度(一种参数更新)是损失函数对参数的偏导数,其计算依赖于批量数据(Batch),但单个梯度仅反映。:在神经网络中,参数是每一层神经元的权重(Weight)和偏置(Bias)。:模型参数是机器学习模型在训练过程中学习的内部变量,决定了模型的预测行为。(样本重叠):需解决特征对齐时的隐私问题(如使用PSI协议)。联邦学习中,服务器仅收集各参与方的参数更新(如梯度),通过。
2025-05-26 20:15:17
930
原创 动态规划算法-算法设计与分许
动态规划将原问题分解成可独立求解的子问题,计算过程中存储子问题的解,避免重复计算相同的子问题。动态规划一般由两种方法来实现,一种为自顶向下的备忘录方式,用递归实现,一种为自底向上的方式,用迭代实现。通常解决最优化问题,问题需要具备: 最优子结构 子问题重叠 如果一个问题可以分解成若干个子问题,若原问题的最优解由其子问题的最优解组合而成,并且这些子问题可以独立求解,则该问题具有最优子结构特性 若子问题之间存在重叠的子问题,则该问题具有子问题重叠特性。
2024-12-28 20:12:41
174
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人