大数据中的混合计算模式

1. 什么是混合计算模式?

混合计算模式是一种将实时计算(Real-time Computing)和离线计算(Batch Processing)结合使用的计算方式。在混合计算模式中,系统综合利用实时计算和离线计算的优势,以满足不同任务和业务场景的需求。

主要特征和原则包括:

  1. 实时计算:

    • 实时计算部分用于处理即时产生的数据,能够在数据生成的瞬间进行计算和分析。这有助于实现快速响应、实时监控和即时决策。
  2. 离线计算:

    • 离线计算部分则用于处理大规模、历史的数据集,执行复杂的分析、挖掘和模型训练任务。这种计算模式适用于需要全面了解长期趋势和进行深度分析的场景。
  3. 任务协同:

    • 在混合计算模式中,实时计算和离线计算的任务通常相互协同。实时计算可以用于快速的反馈和实时的监控,而离线计算则用于更深入的数据挖掘、机器学习模型的训练等任务。
  4. 数据同步与交互:

    • 混合计算需要确保实时计算和离线计算之间的数据同步和交互。实时计算生成的结果可能会被用于离线计算,反之亦然。
  5. 弹性和灵活性:

    • 混合计算系统通常需要具备弹性和灵活性,能够根据业务需求动态调整实时计算和离线计算的资源分配。
  6. 资源优化:

    • 混合计算模式的设计旨在充分利用实时计算和离线计算各自的优势,以优化系统整体性能和资源利用效率。

2. 混合计算模式的应用场景?

混合计算模式结合了实时计算和离线计算,以满足不同任务的需求。以下是一些混合计算模式的应用场景:

  1. 实时决策支持:

    • 在需要即时决策的场景中,可以使用实时计算进行快速响应,而离线计算则用于更深入的分析和预测。例如,在金融领域,实时计算可以用于快速检测异常交易,而离线计算可以用于长期趋势分析和风险建模。
  2. 在线广告投放:

    • 在广告行业中,实时计算可以用于实时监测用户行为和广告效果,以实现实时的广告调整和优化。离线计算则可以用于更大范围的广告数据分析和策略制定。
  3. 物联网(IoT)数据处理:

    • 对于大规模的IoT设备生成的实时数据,实时计算可以用于迅速响应事件和执行即时控制,而离线计算则可以用于长期趋势的分析、设备健康状况的评估等。
  4. 实时监控和报警:

    • 在监控系统中,实时计算可用于实时监控和报警,快速检测到异常情况。离线计算则可以用于更全面的性能分析和历史数据回顾。
  5. 供应链优化:

    • 在供应链管理中,实时计算可以用于即时跟踪物流、库存和订单等信息,而离线计算则可以用于长期趋势分析、需求预测等。
  6. 实时机器学习:

    • 将实时计算与实时机器学习结合,使机器学习模型能够在不断产生的实时数据上进行实时更新。离线计算可以用于更大规模的模型训练和优化。
  7. 社交媒体分析:

    • 在社交媒体领域,实时计算可以用于实时监测社交媒体上的活动和趋势,而离线计算则可以用于更深入的用户行为分析和社交网络图的构建。
  8. 大规模数据分析:

    • 在大数据场景下,可以使用实时计算进行快速数据处理和查询,同时使用离线计算进行更复杂的数据挖掘和分析任务。

混合计算模式的选择通常取决于任务的实时性要求、对数据深度分析的需求以及资源成本等因素。通过充分利用实时计算和离线计算的优势,可以更好地满足多样化的业务需求。

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
理论·政策·产业 大数据专题 大数据专题讲座体会 陕西日报2014年2月11日 赵正永:大力推进信息化发展,对于调整经济结构、转变发展方式、保障和改善民生意 义重大。尽管目前我省的信息化还存在一些问题,但我们要发挥科教大省的资源和人才 优势,逐年增加信息化发展专项资金,出台更加有力的政策措施,努力推进我省信息化 建设走在西部的前列,走进全国的前列。 娄勤俭:我省是国的集散心,在扩大信息流、资金流和物流结合发展方面有区域优 势,为大数据基础设施建设提供很好地保证。同时我省是一个欠发达省份,要充分认识 到大数据在人事保障、医疗保障等社会管理既花钱少又能满足服务的作用,整合资源 、节省投资、快速响应服务,依靠大星通信运营企业提供的服务来推动我省信息服务建 设。 编者按随着技术创新和行业需求的推动,大数据产业和市场已步入快车道。我国"十二五 "规划以将大数据作为建设重点,各级政府也着手建立大数据库,进入了大数据管理时代 。目前,我国已成为全球IT巨头布局大数据战略的重要集聚地。我省网络基础优势,科 教实力雄厚,拥有发展大数据产业的多重优势。但是,我们也是清楚看到,眼下大数据 应用还处于初期发展阶段,面临不少观念和技术等优势。本期周末讲座邀请到西北工业 大学计算机学院周兴社教授,想大家讲解大数据及其应用发展,并针对我省发展大数据 产业提出相应建议。 专家讲义摘要 早在19801年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书,将大数据热 情地赞颂为"第三次浪潮的华彩乐章"。不过从2009年开始,"大数据"才真正的走入了大 众的视野。大数据是建立在数据分析、处理、服务技术快速提升和海量数据快速积累基 础上的。随着IT技术快速发展和网络应用日益深化,正在积累起前所未有的海量数据, 例如淘宝网站、交通图像、微信服务、电子病历以及物联网等新兴服务应用正每日产生 PB级数据;我们每天打电话、发短信、刷卡也在不断产生海量的大数据。著名的咨询机 构IDC(国际数据公司)预测,在未来几年大数据和分析市场将获得快速发展,人类 正在快速步入大数据(BigData)时代。 一、大数据具有自身特点 1、大数据概念 依据全球著名管理咨询公司麦肯锡给出的定义,所谓大数据是指无法在一定时间内 用传统软件工具对其内容进行采集、存储、管理和分析的数据集合。而大数据技术是从 海量复杂数据获得信息所需要的软件、硬件及其读物技术。 大数据特点 目前,学界和业界关于大数据特点,归纳总结为"4V",即Volume(大体量)、Vari ety(多样性)、Velocity(快变化)和Valve(含价值)。 、Volume:PB级数据成为常态;当然,"大"具有相对性,并非必须是PB级数据量,其与领 域相关,不同领域数据规模会有较大差异。 Variety:大数据的类型具有多样性,例如,文本、表格、图像、视频等数据形式均可能 同时存在。 Velocity:数据快速动态变化,例如交通数据、装备运行状态数据等时刻处在变化之, 对此需要高效快速处理方法。 Valve:价值隐藏在海量数据之,往往价值密度很低,如平安城市PB级视频记录数据, 面对特定事件,需经历大量分析处理才能体现出其价值。 3、创新大数据技术 大数据处理的理念、"4V"特点以及处理方式均确定了传统的数据处理方式及其软件 硬件实现,也要创新大数据应用模式。从技术研究角度来讲,在不损失价值前提下,以 提高数据质量、减少数据规模为目标的大数据整理技术,以提炼价值为目标的大数据关 联分析与深度挖掘技术以及以快速高效为目标的大数据新型计算方式,如大规模数据流 实时分析、可扩展统计分级、数据并行处理与增量处理以及异质数数据混合计算等。 大数据带来思维和管理模式变革 大数据发展,不断产生思维方式的变革和创新。大数据直接分析PB级数据,不再依 赖于随机采样;大数据处理不再过分追求个体数据的精确性,预测成为重点;大数据处 理不再过分关注因果,更加重视数据集合的相关性。 同时,多个领域的初步应用案例说明,大数据时代在技术进步的同时,也会引起商 业变革和管理创新。在社会服务领域,大数据正在快速推动政府社会管理模式的创新, 提升公众服务能力;在生产、制造、服务等领域,大数据推动运行效率的提升,实现经 济内涵式增长;在科学研究领域,大数据促进多学科进步以及新型数据科学发展,产生 以数据集计算为核心的新兴科学研究模式创新。 国际国内高度关注大数据发展 大数据研究与应用及其产业形态已引起国际上政府、学术界以及企业界的高度关注 。美国2012年启动国家大数据研究计划,数据科学逐步演变为新兴的独立学科,数据工 程师正在成为新型的IT职业。在企业界,IBM通过汇聚专家、并购公司、申报专利、发布 平台,力求成为大数据和分析领域的全球领导者;GE公
什么叫⼤数据⼈物画像_基于⼤数据的⽤户画像推荐模式 基于⽤户画像,根据每个⽤户使⽤路径与个⼈偏好推荐内容已经成为内容类产品常见的功能模式,也是提升活跃度与转化率最有效的⽅式之 ⼀。 在之前的课程,我们介绍了⽤户画像的定义、标签体系与创建过程,本期课程则重点介绍⼏种不同的推荐模式与优缺点。 常见的推荐逻辑 常见的推荐逻辑 根据⽤户信息进⾏推荐,⽤户进⼊产品后需要完善个⼈信息及选择兴趣标签,系统根据⽤户的个⼈信息(年龄、性别、地域)及所选兴趣标签 与内容匹配,推荐内容标签匹配度⾼的内容。 这种推荐模式的优点在于技术门槛低,由产品经理⾃⼰设计⼀套推荐规则就可以实现。但缺点也很明显,⼀⽅⾯⽤户会不停收到相似的内 容,很难拓展新的关注点,另⼀⽅⾯,内容⽣产商会根据推荐机制针对性设置内容的标签、关键字等信息,将低质量的内容推荐给⽤户,造 成⽤户流失。 基于⼤数据的推荐模式 基于⼤数据的推荐模式模式的核⼼在于,通过建⽴较复杂⽤户画像模型,收集各种途径收集⽤户⾏为数据。根据⽤户业务数据⽣成⽤户画像,计算⽤户画像相似 度,对⽤户画像进⾏分组。通过内容标签与⽤户画像标签离线计算推荐内容。 该推荐模式主要包含⽤户画像建模、⽤户画像聚类、内容标签、内容推荐四个阶段。 ⽤户画像建模 ⽤户画像建模 1、分析业务模型, 建⽴标签体系, 确定标签取值范围 2、分析标签值的数据来源, 按需收集数据, 计算标签值 3、存储⽤户画像数据, 并及时更 新 ⽤户画像最终的结果是往往是⼀张表,每⾏为⼀个⽤户的⽤户画像,存储了⽤户对应的每个标签值。 例⼦: ⽤户画像聚类 ⽤户画像聚类 选择合适的聚类算法, 计算每个⽤户画像的相似度, 为⽤户分组 常见的聚类算法: 层次化: 最近邻⽅法, 最远邻⽅法, 组内聚类法, 组间聚类法, Ward聚类法, 正⼆进制法, 粗聚类算法 划分式: 图论算法, K均值算法, 模糊C均值 基于密度和⽹格: GDILC 算法, SGC算法, GCHL算法, TFCTMO算法, ST-DBSCAN 其它: ACODF 该部分内容由算法经理主导,作为产品经理不⽤参与。 内容标签 内容标签 为了能把内容推荐给⽤户, 需要为每个内容打上相应的标签, 把内容标签化。 与⽤户画像类似, 需要根据业务⽬标来给内容打标签。 内容推荐 内容推荐 主要有三种推荐⽅法。 1、协同过滤推荐⽅法 基于⽤户的协同过滤: ⽤户A喜欢A内容, 那么跟⽤户A类似的⽤户B也喜欢A内容 基于内容的协同过滤: ⽤户A喜欢A内容, 那么同样喜欢A内容的⽤户B喜欢的内容B⽤⽤户A也喜欢。 优势: 有效的使⽤⽤其它⽤户的反馈信息, 提⾼准确度 基于⽤户相似推荐可以发现⽤⽤户的潜在兴趣, 增加推荐的多样性 劣势: ⽤户和物品存在冷启动问题, 新⽤⽤户新内容没有⾏为数据, 所以⽆法做出推荐,可解释性不稳定, 因为不对内容做分析, 所以⽆法根据深层特 征和修改来推荐。 相关算法: 关系矩阵及矩阵计算:⽤户关系 U-U 矩阵、内容关系 V-V 矩阵、⽤户-内容 U-V 矩阵 基于记忆的协同过滤算法 基于模型的协同过滤算法:基于隐因⼦模型的推荐算法、基于朴素贝叶斯分类的推荐算法。 2、基于内容的推荐⽅法: ⽤户喜欢内容A , 那么跟内容A 类似的内容B ⽤户也喜欢 优势: ⽤户间相互独⽴独⽴, 只依赖单⼈偏好 因为内容类似, 所以推荐的内容直观上很容易解释 新内容不存在冷启动问题, 因为只要内容相似就能被推荐 劣势: 对内容标签要求⾼ 不利于挖掘⽤户的潜在兴趣 存在新⽤户冷启动问题 3、基于知识的推荐⽅法: ⽤⼤量的数据, 训练专家模型, ⽤专家来对⽤户偏好推荐 混合推荐⽅法: 根据业务场景, 将以上⽅法进⾏混合, 优化推荐结果。 并⾏: 加权式——对多个结果加权计算获得最终结果 切换式——根据场景使⽤不同的⽅法 混杂——同时⽤以上两种 串⾏: 层叠式——基于⼀个推荐结果再做⼀次推荐 级联式——将⼀种推荐学习到的模型作为另⼀推荐的输⼊ ⼩结 基于⼤数据的推荐模式,可以有效实现"千⼈千⾯"的推荐模式,为⽤户不断输送感兴趣的内容,并挖掘⽤户潜在兴趣点。 对于没有使⽤的记录的新⽤户,则采⽤常规推荐模式,当有了记录后根据⽤户⾏为进⾏⼤数据推荐。 具体采⽤怎样的推荐模式,则需要产品经理根据产品特性结合企业的实际技术能⼒进⾏选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值