文章目录
前言
数据分析的价值在于熟悉整个数据集的基本情况,包括每个文件里有哪些数据,具体的文件中的字段表示什么含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的属性,文章基本属性,以及用户和文章的一些分布,有利于后续的召回策略的选择,以及特征工程。
一、导包
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rc('font',family = 'SimHei',size = 13)
import os,gc,re,warnings,sys
warnings.filterwarnings('ignore')
二、读取数据
path = './data_raw/'
trn_click = pd.read_csv(path+ 'train_click_log.csv')
item_df = pd.read_csv(path + 'articles.csv')
item_df = item_df.rename(columns = {
'article_id':'click_article_id'})#将article_Id改成click_article_id 方便后续match
item_emb_df = pd.read_csv(path+ 'articles_emb.csv')
tst_click = pd.read_csv(path + 'testA_click_log.csv')
三、数据预处理
#对每个用户的点击时间戳进行排序
trn_click['rank'] = trn_click.groupby(['user_id'])['click_timestamp'].rank(ascending = False).astype(int)
tst_click['rank'] = tst_click