数据
文章平均质量分 55
MusicDancing
这个作者很懒,什么都没留下…
展开
-
one id 初识
OneID 指统一数据萃取,是一套解决数据孤岛问题的思想和方法。企业各个部门、业务、产品,各自定义和存储其数据,(对业务实体的UID的定义和实现不一样)使得这些数据间难以关联,成为了数据孤岛。OneID的做法是通过统一的实体识别和连接,打破数据孤岛,实现数据通融。简单来说,用户、设备等业务实体,在对应的业务数据中,会被映射为唯一识别(UID)上,其各个维度的数据通过这个UID进行关联。基于手机号、身份证、邮箱、设备ID等信息,结合业务规则、机器学习、图算法等算法,进行 ID-Mapping原创 2021-09-23 12:33:22 · 1967 阅读 · 0 评论 -
年龄预测优化思路
1. w2v 提取app词向量 使用w2v模型进行训练,将applist转换为32维词向量,输入xgb模型进行训练,准确度与直接使用applist进行训练的准确度没有明显区别。但是从实际意义上出发,经过词向量训练得到的applist的语义信息不与applist完全相关,后续可以作为累加特征使用。2. 修改app权重分布优化目的:通过对40-50年龄段的badcase挖掘applist,提升xgb模型对40-50岁年龄段的预测准确度。优化思路:获取到训练阶段的各个特征权重,再乘以...原创 2021-09-18 16:25:52 · 388 阅读 · 0 评论 -
AppList数据处理
本文参考: 风控数据—手机App数据挖掘实践思路引言 作为移动互联网时代的主要载体,智能手机逐渐成为人们日常生活中不可或缺的一部分,改变着人们的生活习惯。比如,可以用“饿了么”点外卖,“支付宝”可以用来种树,“抖音”可以用来上厕所......强大的App给我们的生活带来了巨大的便利。 正因为如此,App与用户之间存在着密不可分的联系,用户在频繁使用这些App过程中也积累了大量的个人历史数据。这些App数据能帮助我们更好地去理解用户,推测用户的性别、职业、收入、兴趣...原创 2021-09-17 20:06:17 · 898 阅读 · 0 评论 -
职业、称谓数据处理
1. 职业分行业及常识,进行人工整理,包括: 党政军机关、税务、贸易、金融、教育、培训、医疗、健康、房地产、建筑、媒体、艺术、市场、旅游、科研、行政、批发、零售、生活各类服务,以及公司、职业称谓等382个标签。2. 称谓根据百度百科(家庭称谓)和常识人工整理出504个标签。3. 数据处理TF-IDF提取:抽取一千万条用户姓名标注信息,利用jieba分词的extract_tags包抽取top1000个关键词,然后人工整理获得408个标签(去掉名字类,如小王、老李、建军等)...原创 2021-09-17 15:43:55 · 107 阅读 · 0 评论 -
用户画像(二)
永远不要幻想你的用户能告诉你,他们真正需要的是什么!!!(持续验证你的假设)1. 产品十定论1. 定人:给谁;2. 定时:在什么时候、季节、节令里应用; 3. 定景: 如何考虑产品在场景变化中的需求结构;4. 定质: 一定要考虑产品的质量标准是什么? 基于质量标准,会引发出到底你的采购,运营,技术需要什么样的安排?5. 定规: 做产品一定会强调规格,运营经营什么样的产品;6. 定组:在产品中,不同的品类需要考虑组的结合; eg: a. 品牌下的小组;b.品类下面的细原创 2021-07-26 19:49:34 · 141 阅读 · 0 评论 -
用户画像(一)
本文转自:用户画像实践篇1. 什么是用户画像用户画像的核心是为用户打标签,即——将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。一般我们的目标用户就是一个群体(可以通过一个个的标签来描述这个群体)。2. 用户画像体系相关概念用户画像是通过分析用户的基础信息、特征偏好、社会属性等各维度的数据,刻画出用户的信息全貌,从中挖掘用户价值,从而提供个性化推荐、精准营销等服务。2.1 标签类型2.1.1 统计类标签这类标签是最为基础也最为常见的标签类型,例原创 2021-07-06 15:29:53 · 1961 阅读 · 0 评论 -
中国省份城市0-N编号
1.中国省份0-N编号上海,1云南,2内蒙古,3北京,4台湾,5吉林,6四川,7天津,8宁夏,9安徽,10山东,11山西,12广东,13广西,14新疆,15江苏,16江西,17河北,18河南,19浙江,20海南,21湖北,22湖南,23澳门,24甘肃,25福建,26西藏,27贵州,28辽宁,29重庆,30陕西,31青海,32香港,33黑龙江,342.中国城市0-N编号(非100%覆盖)七台河,1万宁,2三亚,3三明,4原创 2020-08-28 14:43:30 · 11737 阅读 · 0 评论 -
中国省份、城市-身份证编码
1.中国省份邮政编码110000,北京120000,天津130000,河北140000,山西150000,内蒙古210000,辽宁220000,吉林230000,黑龙江310000,上海320000,江苏330000,浙江340000,安徽350000,福建360000,江西370000,山东410000,河南420000,湖北430000,湖南440000,广东450000,广西460000,海南500000,重庆510000,四川520000,贵州5原创 2020-08-28 14:35:37 · 14339 阅读 · 10 评论