推荐系统数据分析
<天池推荐系统比赛记录>
本次任务的主要目标是查看数据集整个数据集中有哪些数据,这些数据中有什么潜在的关联,数据有怎样的特征,要如何对数据进行处理来服务于本次的醒悟推荐系统。
数据分析的一般步骤
导入数据
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rc('font', family='SimHei', size=13)
import os,gc,re,warnings,sys
warnings.filterwarnings("ignore")
path = './data/'
#####训练集
trn_click = pd.read_csv(path+'train_click_log.csv')
item_df = pd.read_csv(path+'articles.csv')
item_df = item_df.rename(columns={
'article_id': 'click_article_id'}) #重命名,方便后续match
item_emb_df = pd.read_csv(path+'articles_emb.csv')
#####测试集
tst_click = pd.read_csv(path