Task02 数据分析

最新推荐文章于 2022-12-29 14:27:23 发布

Qinyang_Hu

最新推荐文章于 2022-12-29 14:27:23 发布

阅读量175

点赞数

分类专栏：竞赛推荐系统文章标签： python 数据分析机器学习

本文链接：https://blog.csdn.net/qinyang_H/article/details/110247810

版权

推荐系统同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

竞赛

6 篇文章 0 订阅

订阅专栏

数据分析

数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据，具体的文件中的每个字段表示什么实际含义，以及数据集中特征之间的相关性，在推荐场景下主要是分析用户本身的基本属性，文章基本属性，以及用户和文章交互的一些分布，这些都有利于后面的召回策略的选择，以及特征工程。

建议：当特征工程和模型调参已经很难继续上分了，可以回来重新从新的角度去分析这些数据，或许可以找到上分的灵感。

字段表

user_id — 用户id
click_article_id — 点击文章id
click_timestamp — 点击时间戳
click_environment — 点击环境
click_deviceGroup — 点击设备组
click_os — 点击操作系统
click_country — 点击城市
click_region — 点击地区
click_referrer_type — 点击来源类型
article_id — 文章id,与click_article_id相对应
category_id — 文章类型id
created_at_ts — 文章创建时间戳
words_count — 文章字数
emb_1,emd_2,…,emb_249 — 文章embedding向量表示

导包

# 导入相关包
%matplotlib inline
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
plt.rc('font',family='SimHei',size=13)

import os,gc,re,warnings,sys
warnings.filterwarnings("ignore")

读取数据

####train
trn_click = pd.read_csv('train_click_log.csv')
item_df = pd.read_csv('articles.csv')
item_df = item_df.rename(columns={'article_id':'click_article_id'})  #重命名，方便后续match
item_emb_df = pd.read_csv('articles_emb.csv')

####test
tst_click = pd.read_csv('testA_click_log.csv')

数据预处理

计算用户点击rank和点击次数

# 对每个用户的点击时间戳进行排序
trn_click['rank'] = trn_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False).astype(int)
tst_click['rank'] = tst_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False).astype(int)

# 计算用户点击文章的次数，并添加新的一列count
trn_click['click_cnts'] = trn_click.groupby(['user_id'])['click_timestamp'].transform('count')
tst_click['click_cnts'] = tst_click.groupby(['user_id'])['click_timestamp'].transform('count')

数据浏览

用户点击日志文件_训练集

trn_click = trn_click.merge(item_df, how='left', on=['click_article_id'])
trn_click.head()

# 用户点击日志信息
trn_click.info()
trn_click.describe()
#训练集中的用户数量为20w
trn_click.user_id.nunique()
trn_click.groupby('user_id')['click_article_id'].count().min()  # 训练集里面每个用户至少点击了两篇文章

画直方图大体看一下基本的属性分布

plt.figure()
plt.figure(figsize=(15,20))
i = 1
for col in ['click_article_id','click_timestamp','click_environment','click_deviceGroup','click_os',
           'click_country','click_region','click_referrer_type','rank','click_cnts']:
    plot_envs = plt.subplot(5,2,i)
    i += 1
    v = trn_click[col].value_counts().reset_index()[:10]
    fig = sns.barplot(x=v['index'],y=v[col])
    for item in fig.get_xticklabels():
        item.set_rotation(90)
    plt.title(col)
plt.tight_layout()
plt.show()

在这里插入图片描述

测试集用户点击日志

tst_click = tst_click.merge(item_df,how='left',on=['click_article_id'])
tst_click.head()

tst_click.describe()
#测试集中的用户数量为5w
tst_click.user_id.nunique()
tst_click.groupby('user_id')['click_article_id'].count().min()  # 注意到测试集里面有只点击过一次文章的用户

新闻文章信息数据表

#新闻文章数据集浏览

item_df.head().append(item_df.tail())
item_df['words_count'].value_counts()
print(item_df['category_id'].nunique())   # 461个文章主题
item_df['category_id'].hist()

在这里插入图片描述

item_df.shape

(364047, 4)

新闻文章embedding向量表示

item_emb_df.head()
item_emb_df.shape

数据分析

用户重复点击

#### merge
user_click_merge = trn_click.append(tst_click)
#用户重复点击
user_click_count = user_click_merge.groupby(['user_id','click_article_id'])['click_timestamp'].agg({'count'}).reset_index()
user_click_count[:10]

user_click_count[user_click_count['count']>7]

user_click_count['count'].unique()
#用户点击新闻次数
user_click_count.loc[:,'count'].value_counts()

用户点击环境变化分析

def plot_envs(df,cols,r,c):
    plt.figure()
    plt.figure(figsize=(10,5))
    i = 1
    for col in cols:
        plt.subplot(r,c,i)
        i += 1
        v = df[col].value_counts().reset_index()
        fig = sns.barplot(x=v['index'],y=v[col])
        for item in fig.get_xticklabels():
            item.set_rotation(90)
            plt.title(col)
    plt.tight_layout()
    plt.show()

# 分析用户点击环境变化是否明显，这里随机采样10个用户分析这些用户的点击环境分布
sample_user_ids = np.random.choice(tst_click['user_id'].unique(),size=5,replace=False)
sample_users = user_click_merge[user_click_merge['user_id'].isin(sample_user_ids)]
cols = ['click_environment','click_deviceGroup','click_os','click_country','click_region','click_referrer_type']
for _,user_df in sample_users.groupby('user_id'):
    plot_envs(user_df,cols,2,3)

在这里插入图片描述

用户点击新闻数量的分布

user_click_item_count = sorted(user_click_merge.groupby('user_id')['click_article_id'].count(), reverse=True)
plt.plot(user_click_item_count)

在这里插入图片描述

可以根据用户的点击文章次数看出用户的活跃度

#点击次数在前50的用户
plt.plot(user_click_item_count[:50])

在这里插入图片描述

#点击次数排名在[25000：50000]之间
plt.plot(user_click_item_count[25000:50000])

在这里插入图片描述

可以看出点击次数小于等于两次的用户非常多，这些用户可以认为是非活跃用户

新闻点击次数分析

item_click_count = sorted(user_click_merge.groupby('click_article_id')['user_id'].count(),reverse=True)
plt.plot(item_click_count)

plt.plot(item_click_count[:100])

plt.plot(item_click_count[:20])

plt.plot(item_click_count[3500:])

新闻共现频次：两篇新闻连续出现的次数

tmp = user_click_merge.sort_values('click_timestamp')
tmp['next_item'] = tmp.groupby(['user_id'])['click_article_id'].transform(lambda x:x.shift(-1))
union_item = tmp.groupby(['click_article_id','next_item'])['click_timestamp'].agg({'count'}).reset_index().sort_values('count',ascending=False)
union_item[['count']].describe()

plt.plot(union_item['count'].values[40000:])

新闻文章信息

#不同类型的新闻出现的次数
plt.plot(user_click_merge['category_id'].value_counts().values)
#出现次数比较少的新闻类型，有些新闻类型，基本上就出现过几次
plt.plot(user_click_merge['category_id'].value_counts().values[150:])
#新闻字数的描述性统计
user_click_merge['words_count'].describe()
plt.plot(user_click_merge['words_count'].values)

用户点击的新闻类型的偏好

此特征可以用于度量用户的兴趣是否广泛。

plt.plot(sorted(user_click_merge.groupby('user_id')['category_id'].nunique(),reverse=True))

用户查看文章的长度分布

plt.plot(sorted(user_click_merge.groupby('user_id')['words_count'].mean(),reverse=True))
#挑出大多数人的区间仔细看看
plt.plot(sorted(user_click_merge.groupby('user_id')['words_count'].mean(),reverse=True)[1000:45000])
#更加详细的参数
user_click_merge.groupby('user_id')['words_count'].mean().reset_index().describe()

用户点击新闻的时间分析

#为了更好的可视化，这里把时间进行归一化操作
from sklearn.preprocessing import MinMaxScaler
mm = MinMaxScaler()
user_click_merge['click_timestamp'] = mm.fit_transform(user_click_merge[['click_timestamp']])
user_click_merge['created_at_ts'] = mm.fit_transform(user_click_merge[['created_at_ts']])

user_click_mergr = user_click_merge.sort_values('click_timestamp')

user_click_merge.head()

def mean_diff_time_func(df,col):
    df = pd.DataFrame(df,columns={col})
    df['time_shift1'] = df[col].shift(1).fillna(0)
    df['diff_time'] = abs(df[col] - df['time_shift1'])
    return df['diff_time'].mean()

# 点击时间差的平均值
mean_diff_click_time = user_click_merge.groupby('user_id')['click_timestamp','created_at_ts'].apply(lambda x: mean_diff_time_func(x,'click_timestamp'))

plt.plot(sorted(mean_diff_click_time.values,reverse=True))

# 前后点击文章的创建时间差的平均值
mean_diff_created_time = user_click_merge.groupby('user_id')['click_timestamp','created_at_ts'].apply(lambda x:mean_diff_time_func(x,'created_at_ts'))
plt.plot(sorted(mean_diff_created_time.values,reverse=True))

# 用户前后点击文章的相似性分布
item_idx_2_rawid_dict = dict(zip(item_emb_df['article_id'],item_emb_df.index))

del item_emb_df['article_id']
item_emb_np = np.ascontiguousarray(item_emb_df.values,dtype=np.float32)
#随机选择5个用户，查看这些用户前后查看文章的相似性
sub_user_ids = np.random.choice(user_click_merge.user_id.unique(),size=15,replace=False)
sub_user_info = user_click_merge[user_click_merge['user_id'].isin(sub_user_ids)]

sub_user_info.head()

def get_item_sim_list(df):
    sim_list = []
    item_list = df['click_article_id'].values
    for i in range(0,len(item_list)-1):
        emb1 = item_emb_np[item_idx_2_rawid_dict[item_list[i]]]
        emb2 = item_emb_np[item_idx_2_rawid_dict[item_list[i+1]]]
        sim_list.append(np.dot(emb1,emb2)/(np.linalg.norm(emb1)*(np.linalg.norm(emb2))))
    sim_list.append(0)
    return sim_list

for _,user_df in sub_user_info.groupby('user_id'):
    item_sim_list = get_item_sim_list(user_df)
    plt.plot(item_sim_list)