从0到1构建用户画像（二)

最新推荐文章于 2020-12-31 08:10:00 发布

data_fan

最新推荐文章于 2020-12-31 08:10:00 发布

阅读量381

点赞数

分类专栏：用户画像文章标签：用户画像

本文链接：https://blog.csdn.net/WaterWood_L/article/details/90408953

版权

用户画像专栏收录该内容

3 篇文章 0 订阅

订阅专栏

这篇文章主要针对用户性别这一标签进行实战开发介绍。

语言：python3.6

用户性别

基于身份证

身份证号有18位，也有15位的，18位的第17位代表性别，15位的最后一位表示性别，奇数为男，偶数为女。

用户姓名-性别判断模型

样本数据：带有身份证号和姓名的数据

分类算法：贝叶斯模型
在这里插入图片描述


import ngender

import re

def is_chinese(name):

    g = re.search(r'^[\u4e00-\u9fa5]{0,}$', name)

    if g is None:

        return False

    else:

        return True



train_data = train_data[train_data['user_name'].map(is_chinese)==True]

train_data['guess'] = train_data['user_name'].map(lambda x:ngender.guess(x.strip()))

train_data['r'] = train_data['guess'].map(lambda x:x[1])

train_data['guess_gender'] = train_data['guess'].map(lambda x: 1 if x[0]=='male' else 2)

基于用户行为建模

决策树:变量处理灵活，不要求相互独立，不用预先对模型的特征有所了解，对于表达复杂的非线性模式和特征的相互关系，模型相对容易理解和解释。通过训练数据来构建一颗用于分类的树，从而对未知数据进行高效分类。在构建决策树的过程中，最重要的是入好找到最好的分割点。[如何选择分割]和[如何停止分割],过拟合问题。最简单的办法是设定较少的树的深度或者枝叶，但是这样会欠拟合。所以使用交叉验证：

特征：用户ID KOL账号属性浏览商品类目属性性别

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold
X_train, X_test, y_train, y_test= train_test_split(train_data, lable, test_size=0.2, random_state=42, stratify=lable)
rf = RandomForestClassifier(n_jobs=3, random_state=2019)
rf.fit(X_train,y_train)
print(classification_report(y_true=y_train, y_pred=rf.predict(X_train)))
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=2019)
gsearch1 = GridSearchCV(estimator=RandomForestClassifier(oob_score=True, random_state=2019),scoring='f1', return_train_score='info', cv=cv, n_jobs=-1, param_grid=param_test1)
gsearch1.fit(X_train,y_train)

标签的计算

基础表
借用数据仓库的思想，有利于表中的字段和数据复用。首先我们对基础数据进行整合成一个大宽表,不同标签模型需要的特征可以来源于这些宽表。
加工表
每一个用户标签结果可以存为一个Hive表，表结构设计为

create table if not exists portrait.portrait_gender(
  user_id             int                                   comment '用户ID'
  ,gender        struct<d:string,c:int,t:int>          comment '用户性别'
)comment '用户画像-用户性别'
partitioned by (stat_date string comment '统计日期');

标签存储格式为：（统计类的标签置信度为100）

{d: 标签, c: 置信度, t: 标签生成时间戳}
例如：
user_id	gender
1	{"d":0,"c":80,"t":1557551007242}

标签计算调度
开发统一的标签写入工作流，负责将hive表的数据写入Hbase和es，传入的参数为表名。
标签计算调度依赖管理和监控
Hive标签结果宽表
为了方便标签的统计与分析，读取Hbase上的最新版本表写入Hive表中。

标签的管理

标签分层、增删改查、加工属性（离散、连续）

参考

https://github.com/observerss/ngender

data_fan

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
从0到1构建用户画像（二)

这篇文章主要针对用户性别这一标签进行实战开发介绍。语言：python3.6机器学习算法包：sklearn、gensim用户性别基于身份证身份证号有18位，也有15位的，18位的第17位代表性别，15位的最后一位表示性别，奇数为男，偶数为女。用户姓名-性别判断模型样本数据：带有身份证号和姓名的数据分类算法：贝叶斯模型import ngenderimport r...
复制链接

扫一扫