用户画像系统设计调研

用户画像系统设计调研

一 目的

该系统是对用户数据整体上的统计与展示,统计用户的性别、年龄、地域分布、浏览兴趣分布、忠诚度分布、综合价值分布、用户流失率等数据。该模块的主要用户是内部运营人员、产品经理、技术人员等,查看产品的整体发展状况,为产品的发展方向提供参考标准,为运营推广策略的制定提供数据依据。

二 系统框架

图1 系统框架图

图2 系统流程图

数据采集

客户画像是对用户的描述,包括静态信息和动态信息两方面,客户画像模型应当合理、规范、准确、全面描绘出对数据分析有价值的用户信息,并且可以对客户进行分群,客户群内部呈现出特征的相似性,客户群之间呈现出特征的差异性。

用户画像包括以下数据:

基本资料:是客户的基础信息,包括客户姓名、通讯地址、身份证号码、注册时间、积分等;

  访问偏好:用户新闻访问的喜好分类信息;

  业务使用:对于客户在网站上业务使用行为进行刻画;

  流量消耗:对用户网络使用的流量进行分析,细化数据可以分析到用户每一项业务使用的流量及时长等信息;

数据建模

世界上物品种类有千万种,各种信息更是层出不穷,每种信息都有各自独特的格式和表达方式,如何对信息进行描述,按照一定的方式进行转化,使之形成适合存储的数据格式,称之为建模。常用的有实体建模法,维度建模法,范式建模法三种数据建模方法,不管哪种数据建模方法都是使信息结构清晰、易于存储和读取。

(1)实体建模法

 实体是现实世界中存在的事物或发生的事件,是现实世界中任何可识别、可区分的事物。实体可以是人,可以是物,也可以是发生的某件事,比如一场篮球比赛。每一个实体都必须具备一定的特征,用来区分一个个实体,这些特征称为属性,每个实体可以用若干个属性来刻画,每个属性又有一定的取值类型和取值范围,属性是变量,其取值范围是属性的值域。实体建模法是根据客观世界中的一个个实体,以及实体之间的关系,在数据建模的过程中引入这种区分方法,将整个业务分成一个个实体,从而建立数据模型。实体建模可以比较容易的实现模型的划分,抽象出具体的业务概念,创建符合自己需要的数据库模型。实体建模是对客观世界的抽象,因此该方法建立的模型具有一定的局限性,适合于特定的领域。

(2)维度建模法

维度在数学上指独立参数的数据,在数据分析领域,是指描述事物的角度和方面,是数据库当中,描述某一事物的方法和属性的数目。维度建模就是针对给定的事物,使用不同的描述方法,记录该事物在不同分类方法当中每个属性的值。如对人进行维度建模时,按照性别的维度可以分为男和女,按照年龄段可以分为儿童、少年、青年、中年、老年,按照收入水平可以分为3000以下、3000-6000、6000-10000,10000以上等集中类别。

 维度建模法的好处是对于某个事物,可以在各个维度进行预处理,进行统计、分类、排序等,提高数据库操作性能,同时维度建模法建立的数据模型比较直观,可以紧密围绕业务需求建立模型,直观的反应业务中的问题,建模方法简单,不需要进行特别的抽象处理。但是维度建模法同时也存在缺点,一是在数据建模时需要进行预处理,存在大量的预处理工作,并且当业务需求发生变化时,需要重新定义维度,重新进行新维度的数据预处理,在数据预处理过程中往往存在大量数据冗余,另外就是在进行维度建模时,仅仅依靠维度进行建模,不能保证数据来源的准确性和一致性,不适合在数据库底层使用。

(3)范式建模法

范式就是规则,是符合某一级别关系模式的集合,构造数据库时必须遵循一定的规则。关系数据库中的关系必须满足一定的规则,即满足不同的范式。

 范式建模法是将原始数据信息根据一定的数据结构和转换模型,分解、转化为规范的格式,使数据遵守一定的约束条件,每一个数据项所表达的意思明确,不产生歧义,同时各条数据之间相互独立,不存在依赖关系。

数据分析

数据分析是指通过适当的方法,建立分析模型,对采集来的数据进行分析,充分发挥数据的作用,力求使数据的价值最大化。数据分析的目的是把杂乱无章的原始数据进行集中提炼,找出其内在的规律。数据分析的主要方法有分类分析、聚类分析、回归分析、关联分析等方法。

(1)分类分析

 

分类是指对群体数据进行分析,找出对象的共同特征,并根据不同的特征值模型,将群体数据分成多个不同的类别。分类分析的目的是根据分类模型,将数据映射到不同的类。分类分析可以应用在客户分析、客户特征分析、产品分析当中。例如在对汽车市场客户进行分析时,根据用户年龄、性别、家庭结构、收入状况、目前是否用户汽车等因素,可将客户分为未婚白领、新三口之家、富裕中年家庭等等不同群体,汽车营销人员就可以向不同群体推销不同车型,如向未婚白领推荐款式时尚、价格实惠的车型,给中年家庭推荐中高档车型替换现有汽车。

(2)聚类分析

 聚类分析是将一组数据按照不同维度的相似性和差异性分成不同的几组,聚类分析的

目的是使同一组数据之间的相似性尽量大、差异性尽量小,不同组数据之间相似性尽量小、

差异性尽量大。

聚类可以对用户群进行分类,对客户背景进行分析,对产品市场进行细分。例如对用

户消费能力进行分析时,10个用户,其中3个消费1元,2个消费6元,2个消费7元,3个消费10元,使用聚类方法对这组用户进行分析,其中3人为低消费能力用户,消费能力 1元,3个高消费能力用户,消费能力10元,4个中等能力消费用户,消费能力6.5元,而非按照数学方法得出的 5元。

(3)回归分析

 回归分析是分析一组数据的某个特征或某个模型与这组数据当中的某项或某几项参数变化的相互依赖关系,回归分析应用广泛,根据分析模型当中自变量的多少又可以分为一元回归分析和多元回归分析,根据自变量和因变量的关系类型,又可以分为线性回归分析和非线性回归分析。回归分析研究的是数据之间的相互关系、数据的趋势特征以及数据发展的预测。

(4)关联分析

 关联是指数据项之间产生关系的规则,可以是不同数据项之间的关系,也可以是数据项内部因素之间的关系。关联分析是根据数据项以及数据项之间的关联规则,找出隐藏的数据项之间的相互关系,即根据某些参数在数据项中的存在规则导出其他参数在数据项的存在规则,找出隐藏的数据关联和相互关系的过程。

关联分析一般用于客户关系管理、业务订购分析。通过对一组用户的业务订购数据进行分析,找出用户之间业务订购数据的相似性,比如有100个用户订购了A业务,其中80个用户又同时订购了B业务,则可以根据此数据,生成A业务与B业务之间的关联度为0.8,在推广B业务时,可以优先选择订购了A业务的用户进行营销。

 

数据挖掘

 

数据挖掘是对用户进行理解,将用户的行为转化为规则的利于、计算机存储可处理的数据格式,是按照某种模型对客户信息的规范描绘。建立客户画像模型,是为了用来进行数据分析,挖掘出用户的需求,从而实现内容推荐的功能。

用户画像包括用户地域、年龄、性别等基本属性的分布统计,用户消费数据、用户忠诚度、用户综合价值的分布统计以及用户流失率的整体状况。主要分两部分介绍该系统的设计与实现:用户分布图的设计与实现以及用户流失率计算功能的实现。

(1)用户分布图的设计与实现

该系统是产品的用户整体状况报告,与用户行为排名类似只需要遍历一遍数据,分别统计不同类别的数据。该模块流程如图所示,需要遍历并统计用户基础属性(地域、年龄、性别等、忠诚度、消费、综合价值等数据,并整理成一份报告最终导入数据库。

 

(2)流失率计算功能的实现

流失率计算过程的流程如图所示,计算的数据源包括用户登录数据以及上一次计算的结果。用户登录数据包括每位用户的第一次登录时间以及最后一次登录时间等数据。上一次计算结果包括用户是否流失等数据。综合计算时,利用用户第一次登录时间判断是否为新用户(注册时间2个月以内的用户),利用最后一次登录时间判断用户是否己经流失,上一次计算结果来判断是否己经计算过流失率,避免重复计算,最终利用一次遍历统计新老用户上月留存数量以及新老用户当月流失数量,进而计算新用户流失率、老用户当月流失率以及整体流失率等指标。

(3)用户忠诚度的指标包括:访问频率、最近访问时间、平均停留时间、平均访问页面数。其中每一项的概念:访问频率表示用户在一段时间内访问网站的次数,比如3天内访问了50次;最近访问时间表示用户最近一次访问网站距离现在的时间差,为了便于度量,一般以用户最近访问时间距当前时间的天数表示;平均停留时间表示用户最近一段时间内每次访问的平均停留时间;平均访问页面数表示用户一段时间内每次访问的平均浏览页面数。

最终总结出这四个指标可应用于忠诚度计算:最近一段时间内登录新闻客户端的天数、最近一次上线距现在多少天,最近一段时间内登录日期中每天观看新闻的平均时长、最近一段时间内登录日期中每天观看新闻的平均次数。

 

内容推荐算法

(1)关联度衡量标准

 几种内容推荐技术的比较:TOP 排名推荐法适用于无法获取用户信息的情况;个性化喜好推荐法通过用户与内容的类别匹配进行推荐;行为关联推荐法通过对群体行为进行分析,根据普适规律进行推荐。

在关联分析当中,有两个与关联程度密切相关的衡量标准:“支持度”与“置信度”。其中,支持度是指所有事件当中,几个事件同时发生的概率P(A, B);置信度是指某个事件发生时,其他事件发生的概率P(B|A)。

 

(2)数据样本选择

用户每天产生无数条访问记录,用户间使用习惯相差很大,用户忠诚度(访问量)也存在巨大差距,在进行内容推荐时,应当选择什么样的客户群作为推荐的样本呢?

我们可以选择访问量中等的用户作为内容推荐的分析样本。 忠诚度非常高的用户因为其每天浏览的内容太多,系统难以提炼出用户真正的兴趣点,或者其关注内容过于个性化、专业化,不适合向普通用户推荐,因此不选取高忠诚度的用户作为分析样本。忠诚度过低的用户因为浏览内容太少,无法形成关联数据,因此也不选取其作为分析的样本。

可以采用聚类方法对用户的忠诚度进行区分。聚类分析是在由若干个(不适宜太多)度量维度刻画的空间模型上,对数据样本进行标识,然后采用“密度算法”,基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。

代表算法有:DBSCAN 算法、OPTICS 算法、DENCLUE 算法等,根据样本点在向量空间的分布情况,计算出若干个质心,便形成多个分类。

(3)推荐算法模型

优秀的推荐算法应当具有自学习的能力,学习过程不需要人工干预,是一个闭环的自动控制的过程,即随着时间的推移和使用次数的增多,其维护的用户的兴趣偏好模型越来精确,推荐的内容越来越准确。

计算推荐内容时,系统使用用户关联的算法模型,对用户间的使用行为进行关联对比,找出习惯相似的用户群,根据访问内容关联的置信度信息,对用户推荐置信度高的内容。

在实际应用当中,由于网站内容数量非常多,因此无法对用户访问的每一个具体页面进行记录,取而代之将每个页面对应到相应的类别,以此来节约存储空间,同时提高系统计算性能,使内容推荐变得实际可操作,而这种详细记录推荐法一般用于某个具体站点本身的内容推荐。同时系统对每次推荐的用户反馈情况进行跟踪,以用户反馈信息作为推荐算法优化以及客户画像修正的依据。对于一次推荐活动,若某个用户有返回,表示该用户对推荐的内容感兴趣,系统自动将该用户这个类别的偏好权重加大;若某个用户没有返回,表示该用户对推荐的内容不感兴趣,系统自动将该用户这个类别的偏好权重降低。另外系统统计每次推荐活动的总体反馈情况,若总体返回率较高,则表示推荐的类别实际关联度高,系统将该关联模型的优先级提高,若总体返回率较低,则表示推荐的类别之间无必然的关联,系统自动降低该关联模型的优先级,关联模型的优先级降低到一定程度,系统将不再使用该模型进行内容推荐。

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在移动互联网时代,各式各样的新业务和新产品不断出现,通信市场的用户总体规模增长速度变缓,使运营商之间的竞争愈加激烈,新产品营销的时效性和准确度问题亟需解决。实时营销作为新的营销方式,具有较高的实时性,通过运用大数据分析技术分析用户上网行为特征,并在合适的时间、合适的地点向用户推荐合适的内容,从而提升用户感知、增加用户粘性。如何运用大数据技术实现实时营销是本文的重要内容。本文深入调研分析了大数据实时流式处理技术,并结合其在满足非功能性需求方面的独特优势,设计了一个可以同时满足大数据存储、大数据实时性分析的实时营销系统。该系统采用了实时数据处理与离线数据处理相结合的架构。其中离线数据处理系统通过采用Hadoop集群将用户数据进行标签。实时数据处理系统首先将实时数据以日志的形式存储在Flume中,然后再通过Strom和Spark Streaming工具对实时数据进行实时处理与分析,并对数据进行标签。将生成的标签存储在Redis数据库中。实时营销系统的核心是通过分析电信用户DPI(Deep Packet Inspection,深度包检测)数据、挖掘用户上网特征、添加用户标签、发现目标用户,并采用个性化插件包对用户提供个性化的营销服务。本文的主要研究内容为:(1)实时营销系统的需求分析。结合电信运营商的营销系统的时效性差并且效率低下的现状,通过运用大数据的技术手段和方案,在基于上海电信海量的DPI数据的基础上,为用户进行实时性的推荐。在明确系统目标的前提下,完成对整个系统的需求分析,包括功能性需求(如营销商品管理、营销任务管理、营销规则管理、发送规则管理、营销效果评估)和非功能性需求(如流式框架每秒处理10万条DPI数据,时延少于500毫秒,可处理TB级以上的数据)。然后采用用例图对功能性需求进行建模。(2)实时性营销系统的总体架构设计。基于实时营销系统需求分析的基础上,提出了离线数据处理与实时数据处理相结合的总体架构。首先选择出流式处理平台的相应组件,然后采用流式处理组件串联结构,同时以CORE为核心调用相关模块进行实时营销的策略模式,对系统进行了全面的部署。通过对离线数据和实时数据分别进行标签处理,利用标签对用户进行多维度的画像,全面反应用户特征,使得营销过程更加精准化。(3)实时性营销系统的具体设计与实现。根据系统的总体架构设计,本文主要从三个方面完成了基于流式计算的电信实时营销系统设计与实现。解决实时数据的传输问题:流式计算数据处理系统需要进行对实时信息进行及时、不间断地处理。Flume从节点上实时采集数据并将数据以日志的形式存储。Kafka负责低时延的收发日志数据。Storm系统读取Kafka中的数据,并及时的处理,保证处理的稳定性和时效性。Spark Streaming完成对数据的实时分析,保证在复杂度高的分析时具有较高的实时性。Storm系统与Spark Streaming系统共同部署在YARN上,完成了平台的整合与数据资源共享,节省了网络开销。解决精准性营销的问题:通过对电信的DPI数据进行分析,建立用户标签库,对用户进行画像。通过数据挖掘算法发现目标用户群以及用户的触点事件,建立相应的营销规则,当事件发生时触发实时营销动作。这是一个需要不断更新和完善的过程,通过建立正确的营销反馈体系和良好的反馈机制,使实时营销更加精准。利用个性化插件包解决个性化业务的需求问题:利用Mysql数据库和自定义应用程序接口,针对不同的业务场景开发不同的插件包,使实时营销具有可拓展性。(4)实时性营销系统的测试及结果分析。从系统的可行性和性能方面进行了验证和分析。在可行性方面,系统能够实现预期的功能,同时输出相对应的结果,并以明星机推送的场景实例对系统进行验证;在性能方面,分别对Storm和Spark Streaming的性能进行测试,并给出了结果分析。本文提出的实时营销系统能够清晰全面的掌握用户特征与习惯信息,为用户提供个性化定制的营销服务。在竞争激烈的移动增值业务市场中,率先满足用户的需要,得到用户的青睐,同时减少用户的流失。
近几年中国在淘宝、京东、天猫等巨头电商公司带动下迅猛发展,电商在中国显示出了强大的生命力,每家电商公司的商品更是以指数级的数量增长,可是在商品增长的同时,也无形中增加了用户寻找商品的困难程度。这个问题在小型智能移动终端尤其明显,用户在小型智能移动终端浏览大量的商品不仅会占用客户的时间还会消耗大量的流量,这种欠佳的浏览体验是导致用户转移购物平台的一个主要因素。本文设计并实现基于“用户画像”的商品推送系统正是在上述问题的基础之上立项的,将用户画像与主动推送相结合,避免了用户在海量商品中苦苦寻求自己感兴趣的商品,不仅解决了商品过载的问题而且实现了对用户的精准营销。主要研究内容如下:首先介绍了基于“用户画像”的商品推送系统的立题意义以及相关的理论基础,对国内外推送系统的发展状况进行了深入调研,详细的阐述了所需要使用的技术。其次对基于“用户画像”的商品推送系统从需求、设计和实现的三个方面进行详细的说明,本系统主要构成为以下两个部分:(1)用户画像系统,首先以用户的个人历史行为为基础,通过评分矩阵模型构建用户兴趣模型,然后基于标签规则将用户兴趣模型转换为用户标签模型,用户画像系统则是以用户标签模型为基础生成的,并通过Echarts图表将用户画像进行展示。与传统推送系统相比,本系统将用户置于最重要的部分,对每个用户都实现精准营销。(2)商品个性化推送平台,调用本接口可以返回商品列表,返回的商品列表是在用户兴趣模型的基础上混合多种规则并加以过滤得到的最符合用户偏好的推送商品集合,以接口的形式给不同类型的小型智能移动终端提供数据。本接口应用Thrift框架编写,通过该框架进行系统之间的交互具有高性能、低延迟、支持同步和异步通信等优点。最后,为推送效果提供测试方案,商品推送系统的参数调优通过NDCG算法,NDCG表示归一化折损累积增益,该算法是当下比较流行的推荐系统评测指标之一,通过用户对推送商品的操作行为量化出用户对商品列表的满意程度,根据用户满意度进而对系统参数进行调整
个性化智能推荐系统分析与调研 1. 系统简介 从市场⽤户调研到互联⽹电商平台产品设计,再到上线运营推⼴,覆盖的⾯很宽,但最为关键和难度最⾼的是个性化推荐系统、搜索 底层和⼤数据系统。其中,个性化推荐系统和搜索底层都是基于⼤数据,所以最终各条产品线和技术都归集到⼤数据系统上。 个性化智能推荐最终的⽬标是让⼀个普通访问电商平台的⽤户,在进⼊平台页⾯时,系统能够根据⽤户⽇常的⾏为偏好和习惯,⽤户 ⼼理想要购买的商品,在还没有发⽣点击⾏为时,系统能⾃动推荐到⽤户访问的页⾯,提升平台⽤户下单转化率。即使在⽤户没有访 问平台时,企业通过与⽤户⽇常浏览互联⽹⾏为轨迹的平台进⾏联盟合作,在联盟平台推送⽤户希望购买的商品⼴告和链接,刺激和 引导⽤户点击购买。即使在⽤户没有打开电脑时,能够通过信息和邮件的⽅式,根据⽤户平常的购买频次和周期,在特定的时间推送 到⽤户⼿机和电脑。 2. 系统设计建设三步曲 1) 建⽴平台⽤户⾏为的召回模型。 基于如下维度来实现: · ⽤户历史⾏为数据召回 ⽤户历史⾏为数据召回基于⽤户历史浏览、点击、购买、评论、分享、收藏、关注等触点,分类推荐在线相关、在线相似、离 线相关、离线相似⾏为; · ⽤户偏好召回 基于⽤户偏好召回是基于⽤户归类画像与平台多屏互通融合; (补充:⽤户画像,即⽤户信息标签化,就是企业通过收集与分析消费者社会属性、⽣活习惯、消费⾏为等主要信息的数据之 后,完美地抽象出⼀个⽤户的商业全貌作是企业应⽤⼤数据技术的基本⽅式。⽤户画像为企业提供了⾜够的信息基础,能够帮 助企业快速找到精准⽤户群体以及⽤户需求等更为⼴泛的反馈信息。 ⽤户画像(User Profile),作为⼤数据的根基,它完美地抽象出⼀个⽤户的信息全貌,为进⼀步精准、快速地分析⽤户⾏为习 惯、消费习惯等重要信息,提供了⾜够的数据基础,奠定了⼤数据时代的基⽯。) · ⽤户地域召回 基于⽤户地域召回是基于⽤户地域的⽹格化来实现地域⾏为推荐算法; 2) 召回模型匹配算法 利⽤⾼斯逻辑回归及多维算法来得出与⽤户召回⾏为的匹配商品及⼴告信息; 3) 平台针对匹配模型推荐结果的排序算法 基于⽤户交互⽇志通过模型训练特征权重,采⽤排序算法来实现⾃动匹配个性化推荐。在系统实现技术架构上,为⽀撑个性化 推荐系统平均⾄少每周进⾏算法迭代,采⽤HBase、Spark及MapReduce等系统架构,在个性化推荐系统优化升级中, 与DNN融合的速度越来越快。 3. ⽤户⾏为数据采集 平台的前端⽤户千⼈千⾯,⽽后端需要建⽴复杂的⽤户全⽹⾏为数据采集、存储加⼯、数据建模和⽤户画像过程,单纯采集互联⽹电 商平台数据,仅能达到个性化推荐效果的40%左右,如果要提升个性化推荐的效果,就必须覆盖⽤户全⽹⾏为轨迹,甚⾄⽤户线下的 ⾏为轨迹,这就形成了以互联⽹电商平台为核⼼的⽣态系统,也能说明阿⾥、腾讯为什么要控股或收购各⾏业企业的原因。 ⾸先需要在采集的互联⽹平台进⾏埋点,在页⾯放置"蜘蛛"探针、采集业务系统所有访问和操作⽇志、从数据库中提取业务数据,采 集回来存储在数据仓库,采集服务器组负责将采集到的⽇志信息⽣成⽂件,落地到存储设备;ETL服务器负责将⽇志⽂件和结构化数 据导⼊Hadoop分析集群,并将分析结果导出到Oracle数据库;数据解析服务器负责连接Hadoop环境,完成数据分析各项计 算;Hadoop和Hive提供数据分布式存储和计算的基础框架;调度实现以上数据导⼊、分析和结果导出的所有任务的统⼀调度;数据 展⽰服务器负责数据分析结果的多种形式展现。 4. ⽤户画像标题体系设计 ⽬前做⼤数据平台的公司,⼤多数采集的数据指标和输出的可视化报表,都存在⼏个关键问题: · 采集的数据都是以渠道、⽇期、地区统计,⽆法定位到具体每个⽤户; · 计算统计出的数据都是规模数据,针对规模数据进⾏挖掘分析,⽆法⽀持; · 数据⽆法⽀撑系统做⽤户获客、留存、营销推送使⽤; 所以,要使系统采集的数据指标能够⽀持平台前端的个性化⾏为分析,必须围绕⽤户为主线来进⾏画像设计,在初期可视化报表成果 基础上,将统计出来的不同规模数据,细分定位到每个⽤户,使每个数据都有⼀个⽤户归属。将分散⽆序的统计数据,在依据⽤户来 衔接起来,在现有产品界⾯上,每个统计数据都增加⼀个标签,点击标签,可以展⽰对应每个⽤户的⾏为数据,同时可以链接到其他 统计数据页⾯。由此可以推导出,以⽤户为主线来建⽴数据采集指标维度:⽤户⾝份信息、⽤户社会⽣活信息、⽤户资产信息、⽤户 ⾏为偏好信息、⽤户购物偏好、⽤户价值、⽤户反馈、⽤户忠诚度等多个维度,依据建⽴的采集数据维度,可以细分到数据指标或数 据属性项。 ⽤户⾝份信息维度 性别,年龄,星座,居住城市,活跃区域,证件信息,学历,收⼊,健康等。 ⽤户社会⽣活信息维度 ⾏业,职业,是否
随着大数据时代的到来,能够牢牢的抓住老客户、吸引新客户、读懂用户的偏好兴趣以及挖掘用户的潜在价值,这些对于运营商的的发展至关重要。而达成这一目标需要对用户市场进行细分实现精细化营销,应用数据挖掘技术对用户进行画像,实现用户细分,其研究和发展在实现运营商精确营销、提高工作效率、减少经营成本方面具有重要的指导意义和实用价值。本文以移动互联网用户行为作为研究对象,以用户画像理论作为理论依据,提出了用户画像系统的建设思路,采用标签化方法对用户行为以及用户偏好特征进行描述。本文首先对用户画像系统进行整体的阐述,分别从具象的语义化以及抽象的数学模型来对用户画像系统进行概述,再者从动态性以及时空局限性对用户画像的特性进行描述,最后从建模的角度,将用户画像系统分为静态信息画像以及动态信息画像,对其中的用到的建模方法以及所使用的数据挖掘算法进行了详细的介绍。其次对用户画像的整体架构上进行了描述。分别从系统的总体设计和功能架构,以及业务架构方面将用户画像系统设计思路进行详细的描述。再者文中结合运营商的经营特点以及业务经验,将用户画像系统分别从基础属性、业务属性、产品属性、渠道属性详细的阐述了用户静态信息标签构建的方法以及具体的分类。然后通过数据挖掘方法的方法实现中文分词,利用LDA聚类模型获得分词向量化从而获得用户文本的特征向量,接着利用改进的TF-IDF分类方法实现对用户不同维度信息的预测,从而构建了用户的互联网基础属性特征。其次通过对用户上网日志的解析和网络爬虫数据的匹配,构建内容的评分模型,实现对移动客户的特征、偏好等信息进行高度总结,从而生成用户移动互联网偏好特征标签,全面丰富了用户动态信息标签的构建。在此基础上,提出了用户画像系统运用列数据库对画像数据进行存储,标签元数据管理以及标签生命周期管理、查询机制和更新机制一系列完整的规范化的用户画像系统管理流程,从而构建一个完整闭环的用户画像系统。最后以营销过程中流量提升以及手机阅读软件用户量提升为例描述了用户画像系统在移动营销业务中的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

samoyan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值