新闻推荐场景下的用户行为预测挑战赛之数据分析

最新推荐文章于 2023-09-27 18:34:28 发布

原创

最新推荐文章于 2023-09-27 18:34:28 发布 · 803 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文详述了新闻推荐场景下用户行为预测的数据分析过程，包括数据预处理、用户点击日志分析、用户环境变化研究，为模型优化提供依据。

文章目录

前言
一、导包
二、读取数据
三、数据预处理
四、数据浏览
五、数据分析
- 1、用户重复点击
- 2、用户点击环境变化分析
六、总结

前言

数据分析的价值在于熟悉整个数据集的基本情况，包括每个文件里有哪些数据，具体的文件中的字段表示什么含义，以及数据集中特征之间的相关性，在推荐场景下主要就是分析用户本身的属性，文章基本属性，以及用户和文章的一些分布，有利于后续的召回策略的选择，以及特征工程。

一、导包

%matplotlib inline
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
plt.rc('font',family = 'SimHei',size = 13)

import os,gc,re,warnings,sys
warnings.filterwarnings('ignore')

二、读取数据

path = './data_raw/'

trn_click = pd.read_csv(path+ 'train_click_log.csv')
item_df = pd.read_csv(path + 'articles.csv')
item_df = item_df.rename(columns = {
   
   'article_id':'click_article_id'})#将article_Id改成click_article_id 方便后续match
item_emb_df = pd.read_csv(path+ 'articles_emb.csv')

tst_click = pd.read_csv(path + 'testA_click_log.csv')

三、数据预处理

#对每个用户的点击时间戳进行排序
trn_click['rank'] = trn_click.groupby(['user_id'])['click_timestamp'].rank(ascending = False).astype(int)
tst_click['rank'] = tst_click.groupby