数据分析网 » 傅志华:如何构建互联网产品数据管理体系




傅志华:如何构建互联网产品数据管理体系

产品数据管理是什么?

产品数据管理(PDM)最早出现在20世纪80年代中期,过去产品设计、工艺设计、生产管理使用的图纸、工艺、生产计划、物资管理都是纸质文件,但一经计算机处理后,这些纸质文件都转化成为计算机中各种不同类型格式的数据,因此出现了产品数字化的概念。这些数字化的产品数据管理称为PDM(ProductData Management)。PDM以管理企业的产品数据为基础,管理所有与产品相关的信息(包括电子文档、数字化文件、数据库记录等)和所有与产品相关的过程(包括工作流程和更改流程),通过控制涉及这些信息的所有过程、管理协调与这些过程有关的所有机构和人员,保证设计人员在需要的时候都能够访问到正确的信息,并提高设计者之间及应用与应用之间的信息反馈速度,从而达到缩短产品的开发周期、降低成本、提高质量和改善产品性能的目的。

互联网企业也有系统化的产品数据管理体系,由于大数据的发展,互联网企业的产品数据管理体系相对于传统企业的产品数据体系有着更显著的差异和特色:

(1)由于产品功能多元化和产品更新迭代速度快,数据体系的构建更为复杂;

(2)可采集的数据更为全面和多样化,数据对产品运营和优化决策的作用更为显著;

(3)对数据处理能力的要求更高,尤其是对海量数据处理的能力,数据计算的实时性方面要求更高;

(4)对数据分析数据挖掘的深度要求更高,数据能够为产品决策提供更多的支撑。

互联网的产品数据管理应用概览

互联网的产品数据管理包括四大方面,具体包括:

(1)数据统计指标设计。互联网产品数据体系的构建,从统计指标设计出发,以结果导向来设计数据体系,以更好的进行产品开发和运营管理。

(2)数据上报采集。设计好数据体系后,我们需要和相关产品经理、产品开发人员规划数据上报,确定通过技术手段采集那些数据。

(3)数据存储、处理和统计。即对上报的数据进行加工和存储,利用大数据技术进行数据统计和数据展现,方便查看和检索。

(4)数据分析与挖掘。即对重要的产品设计和运营问题或者方向进行数据分析和挖掘,对重要的产品关键数据进行实时监控和预警。

这四方面形成闭环,不断的循环改进。虽然互联网产品的数据管理体系从数据统计指标体系出发,而数据分析和数据挖掘是最后一步,但经过数据分析和数据挖掘,也会进一步促进数据统计指标的设计和优化。

  数据统计指标设计

衡量一个产品的好坏可以分为经营类指标、体验设计类指标和性能质量类指标。不同产品定位和功能都有不同,因此无法完全统一指标来直接衡量各个产品的好坏。因此,不同产品的数据指标体系既有相同的方面,也有差异的方面。在下一篇文章,我们将分别详细介绍电商、游戏和工具类产品应用的通用类数据指标体系。在差异化的方面,每个产品可以提炼出与自身产品定位和功能更有针对性的指标,如像微信,朋友圈的发图片量一定是重要的但也比较特殊的活跃度指标。

在数据指标体系设计过程中,常常遇到以下问题:

(1)产品缺乏有效的数据监控。产品越来越多,但对产品缺乏监控与评估,各功能对用户的需求与满意度,贡献度无定期反馈与评估机制。

(2)数据需求合理性问题。产品经理或运营人员提出的数据需求往往没有经过专业数据分析师评估与评审,对数据指标的统计必要性、完备性和准确性缺乏评估。

(3)数据指标体系科学性问题。现有的产品指标多数是是记录部分原数据,对产品的衡量缺乏立体化维度,缺失部分关键指标。

为了解决这些问题,我们需要从以下四大方面解决:

(1)提炼关键产品关键价值指标。产品关键价值指标是每个业务(功能)综合衡量指标,该指标包括财务类经济收入指标和用户活跃度的总体指标。常用指标如收入、日活跃用户数和付费用户数等。

(2)构建立体化的产品评估体系。我们需要对影响产品关键价值指标的相关影响因素进行详尽分析,并构建立体化的指标体系进行监控。比如影响日活跃用户的相关指标,可能包括用户参与度类指标、用户留存类指标和产品性能类指标,这些指标都尽可能细化,并进行监控。

(3)细分指标,有利与定位与发现问题,便于开展专项分析。我们需要对产品关键价值指标进行细分拆解,以方便定位产品关键价值指标异动原因。如对日活跃用户的拆解,我们可以从不同版本角度进行拆解或者从产品不同功能模块拆解,以方便发现日活跃用户异动的原因。

(4)建立数据需求评审制度。定期如每周进行数据需求评审,数据需求提出方与分析师、数据开发人员共同讨论,根据数据需求的背景和商业目标制定相应的数据指标体系,并确定数据的来源,如果没有现成的数据源,还需要驱动开发进行数据上报。

数据上报采集

互联网产品的数据采集需要通过开发人员写程序或者使用已有的工具把相关的数据以日志的方式传输到数据上报的服务器,数据开发人员再对相关的日志进行日志解析、入库,以方便数据统计。但很多产品经理或者运营人员以为数据不用上报就可以做数据统计,这是一个常见的误区,会经常导致产品上线后,关键的运营数据都不能看到。很多互联网产品经理或者运营人员经常把数据上报和数据统计混淆,以为上报项就是统计项,或者以为提了数据上报需求就有统计结果,或者做数据上报的测试不做统计的测试。实际上,数据上报是数据采集的手段,上报是数据统计的数据来源之一。还有一种极端的方式是,产品经理或者运营人员为了上报数据而提上报数据需求,不管上报的数据是否有用,尽可能多的提,导致提了非常多没有用的数据上报项,浪费公司开发资源,浪费数据存储资源,浪费公司开发人力。

如何进行有效的数据上报?我们常常看到,很多数据上报需求对上报条件与规则描述不太清楚,导致与数据上报的开发人员、测试人员的沟通中常出现理解不一致,常常导致返工等浪费人力情况。有效的数据上报需求说明应该包括以下要点:统计项名称、统计目的、统计方式、上报项描述、业务逻辑及触发时机。我们建议把此作为互联网产品数据上报需求的模板,以规范数据上报需求。通过建立数据上报模版,帮助提高产品需求的质量,提高与开发测试方沟通的效率,节省沟通成本。以“发送图片成功账户数”为例,数据上报内容如下:

统计项:发送图片成功账户数。

统计目的:产品关键数据之一,衡量产品运营整体效果。

统计方式:日周期统计。

上报项描述:该用户成功发送图片的次数。

触发条件/业务逻辑详细描述:发送成功账户指自定义图片由发送方计算机成功上传到服务器,当天只要有一次发送成功则被记为成功账户。

数据存储、处理和统计

数据上报到数据存储服务器后,经数据开发人员数据处理后,便可以进行统计和数据展示。大数据存储经常面临存储规模大和存储管理复杂的挑战,需要兼顾结构化、非结构化和半结构化的数据。传统数据库对这类需求和应用无论在技术上还是功能上都不能很好的解决。我们可以利用分布式文件系统和分布式数据库技术来解决这些问题。同时,大数据存储还要考虑一个重要的问题,即数据的生命周期管理问题。数据有其生命周期,同时,数据存贮也有相应的成本。随着数据量越来大,数据维护成本越来越高,数据使用效率也会逐渐降低。大数据管理里面经常面临的问题是:什么样的数据需要一直存储,如果要存储是在线存储还是离线存储,那些数据需要存储一定时间后要进行删除。因此,我们需要对数据的不同时效、不同访问频率、不同重要性进行区分,结合存储成本的考虑,制定相应的存储策略。如交易型数据其数据重要性高和访问频率高,可以采用在线存储。

在数据处理和统计上,要重点解决以下问题:

(1)多样化的数据处理。互联网大数据的特点是要对不同数据结构特征的数据处理,即要对结构化/半结构化数据和非结构化的数据进行处理;

(2)数据实时性问题。从数据计算响应性能角度看,大数据处理可分为实时/准实时与非实时计算,流式计算通常属于实时计算,查询分析类计算通常也要求具有高响应性能,而批处理和复杂数据挖掘计算通常属于非实时或线下计算,那些数据需要实时计算,那些数据需要离线计算,要提前评估和准备;

(3)数据关联性问题。如MapReduce 适用于处理数据关系较为简单的计算任务,但社会网在络等具有复杂数据关系的计算任务则需要研究和使用图数据计算模式;

(4)并行计算的体系和硬件平台的搭建。大数据处理通常需要使用基于集群的分布式存储与并行计算体系结构和硬件平台,尤其是随着很多需要高响应性能的大数据查询分析计算问题的出现,MapReduce 其在计算性能上往往难以满足要求,用内存计算完成高速的大数据处理已经成为大数据计算的一个重要发展趋势。

数据分析和数据挖掘

数据分析和数据挖掘需要集成的、经过清洗的、可信的、可高效访问的数据,通过大数据分析和挖掘,大数据的价值才可以更好的发挥出来。大数据环境下的分析和挖掘方法与传统的小数据统计分析有很多不同,这些方向也是构建大数据能力和体系时需要解决的问题。大数据时代,数据分析和数据挖掘体系需要解决以下问题:

(1)大规模数据的处理和分析。大数据环境下的数据分析需要处理大规模的且数据量急速增长的数据。在这种情况下,我们可以采用抽样的技术来把数据规模变小,以便利用已有的技术手段来进行数据分析。但在某些领域,抽样会导致信息的丢失。所以,如何应对TB级别甚至更高量级数据量进行分析,是大数据分析相对于小数据分析的最大挑战。

(2)数据分析的深度和广度。一方面,由于大数据种类的多样性,不仅仅包括结构化的数据,还包括半结构化、非结构化的数据,使得可以分析的维度变多,数据分析的广度变得更宽,可以从更多的维度发现小数据所不能发现的洞察。第二方面,结合大数据的算法和更为复杂的统计分析模型,我们可以做更深度的分析,比如预测客户流失的概率以及流失的原因,实时监测和定位数据异动的原因等。因此,相对于小数据,大数据在数据分析的深度和广度都有更为明显的优势,从数据更好的发现知识并加以利用进而指导人们的决策。

(3)数据分析和数据挖掘的实时性。在大数据时代,数据分析越快、越及时,对商业价值的贡献则越大,查询和分析的实时处理能力,对于人们及时获得决策信息,做出有效反应是非常关键的前提。如根据用户最近购买行为、浏览行为通过大数据技术来及时的“猜测”用户的潜在需求,推荐用户最想购买的商品,并推送有有效的促销信息促成用户购买。这个猜测和推荐的过程越快效果越好。但是,在面对大数据,数据分析和数据挖掘的实时性成为大数据应用最大的挑战。因此,构建实时计算能力如利用spark、storm等实时计算技术成为提升数据分析实时性的关键。

(4)数据分析的自动化和可视化结合。在大数据时代,我们需要利用大数据技术实现分析的自动化,让机器能做的事情充分的让机器来完成。要实现“机器”自动化的数据分析,前提是让“人”提前设置好数据分析的模式。这样,人可以把更多的分析经验和思路沉淀为分析模式,让机器不断的利用分析模式来及时的、自动化的计算,从而使得数据分析可以更好的提高效率。同时,如果我们还可以利用大数据可视化的手段把复杂的计算结果用简单易用的可视化数据产品展示出来,将有利于“大数据用户”更好的理解数据分析的结果,更好运用数据来做更多有效的决策。总之,大数据可视化与大数据分析自动化的结合,一方面由于机器的自动化计算提高了分析效率,另一方面,由于可视化提供了用户对数据的直观分析和展示,提升了数据的易用性。如果还可能,大数据可视化可以进一步结合人机交互,将能带来更好的分析效果。大数据可视化方面结合人机交互的功能,本质上是提供了人和数据的“对话”功能,可以更好的探索数据中的隐含信息,进行更好的推理,获得更深入的洞察。

总之,互联网产品的数据管理体系需要产品经理、产品运营人员、开发人员和数据分析师共同合作完成,并不是数据分析师或者是产品经理一个人就能完成的事情。为了更好的建设符合大数据时代的产品运营的数据体系,我们需要充分理解数据体系的商业目标,做出科学严谨的产品数据体系,做好数据上报的规范,构建大数据存储和计算的能力,做好数据的生命周期管理,搭建具有大数据技术能力的数据分析和数据挖掘体系,并在这些基础上形成数据体系设计、数据上报采集、数据存储计算和数据分析挖掘的良性循环。


作者简介

傅志华先生曾为腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长。在腾讯前,曾任DCCI互联网数据中心副总裁。傅志华先生现就职于某互联网公司大数据中心副总经理,同时任中国信息协会大数据分会理事和中国互联网协会大数据工作组专家。

智慧旅游解决方案利用云计算、物联和移动互联技术,通过便携终端设备,实现对旅游资源、经济、活动和旅游者信息的智能感知和发布。这种技术的应用旨在提升游客在旅游各个环节的体验,使他们能够轻松获取信息、规划行程、预订票务和安排食宿。智慧旅游平台为旅游管理部门、企业和游客提供服务,包括政策发布、行政管理、景区安全、游客流量统计分析、投诉反馈等。此外,平台还提供广告促销、库存信息、景点介绍、电子门票、社交互动等功能。 智慧旅游的建设规划得到了国家政策的支持,如《国家中长期科技发展规划纲要》和国务院的《关于加快发展旅游业的意见》,这些政策强调了旅游信息服务平台的建设和信息化服务的重要性。随着技术的成熟和政策环境的优化,智慧旅游的时机已经到来。 智慧旅游平台采用SaaS、PaaS和IaaS等云服务模式,提供简化的软件开发、测试和部署环境,实现资源的按需配置和快速部署。这些服务模式支持旅游企业、消费者和管理部门开发高性能、高可扩展的应用服务。平台还整合了旅游信息资源,提供了丰富的旅游产品创意平台和统一的旅游综合信息库。 智慧旅游融合应用面向游客和景区景点主管机构,提供无线城市门户、智能导游、智能门票及优惠券、景区综合安防、车辆及停车场管理等服务。这些应用通过物联和云计算技术,实现了旅游服务的智能化、个性化和协同化,提高了旅游服务的自由度和信息共享的动态性。 智慧旅游的发展标志着旅游信息化建设的智能化和应用多样化趋势,多种技术和应用交叉渗透至旅游行业的各个方面,预示着全面的智慧旅游时代已经到来。智慧旅游不仅提升了游客的旅游体验,也为旅游管理和服务提供了高效的技术支持。
智慧旅游解决方案利用云计算、物联和移动互联技术,通过便携终端设备,实现对旅游资源、经济、活动和旅游者信息的智能感知和发布。这种技术的应用旨在提升游客在旅游各个环节的体验,使他们能够轻松获取信息、规划行程、预订票务和安排食宿。智慧旅游平台为旅游管理部门、企业和游客提供服务,包括政策发布、行政管理、景区安全、游客流量统计分析、投诉反馈等。此外,平台还提供广告促销、库存信息、景点介绍、电子门票、社交互动等功能。 智慧旅游的建设规划得到了国家政策的支持,如《国家中长期科技发展规划纲要》和国务院的《关于加快发展旅游业的意见》,这些政策强调了旅游信息服务平台的建设和信息化服务的重要性。随着技术的成熟和政策环境的优化,智慧旅游的时机已经到来。 智慧旅游平台采用SaaS、PaaS和IaaS等云服务模式,提供简化的软件开发、测试和部署环境,实现资源的按需配置和快速部署。这些服务模式支持旅游企业、消费者和管理部门开发高性能、高可扩展的应用服务。平台还整合了旅游信息资源,提供了丰富的旅游产品创意平台和统一的旅游综合信息库。 智慧旅游融合应用面向游客和景区景点主管机构,提供无线城市门户、智能导游、智能门票及优惠券、景区综合安防、车辆及停车场管理等服务。这些应用通过物联和云计算技术,实现了旅游服务的智能化、个性化和协同化,提高了旅游服务的自由度和信息共享的动态性。 智慧旅游的发展标志着旅游信息化建设的智能化和应用多样化趋势,多种技术和应用交叉渗透至旅游行业的各个方面,预示着全面的智慧旅游时代已经到来。智慧旅游不仅提升了游客的旅游体验,也为旅游管理和服务提供了高效的技术支持。
深度学习是机器学习的一个子领域,它基于人工神经络的研究,特别是利用多层次的神经络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经络(Neural Networks)**:深度学习的基础是人工神经络,它是由多个层组成的络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经络(Feedforward Neural Networks)**:这是最常见的神经络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经络(Convolutional Neural Networks, CNNs)**:这种络特别适合处理具有格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经络(Recurrent Neural Networks, RNNs)**:这种络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗络(Generative Adversarial Networks, GANs)**:由两个络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经络中用于添加非线性,使得络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值