import pandas as pd导入pandas
book = pd.read_csv(‘booksimple684_1856.csv’, sep=’,’,names=[‘user_id’,‘item_id’,‘rating’])
##读取booksimple684_1856.csv,以,分割,每一列名字如上,得到dataframe如下:
book.drop_duplicates(subset=[‘user_id’,‘item_id’], keep=‘first’, inplace=True) ##删除’user_id’,'item_id’完全相同的一行,inplace=True则表示作用于原数据,subset默认为所有列
usercount=book[‘user_id’].value_counts() ##统计每一个user_id的记录个数
userneed=usercount[usercount.values>=80].index ##得到user_id的记录个数在80以上的user_id名字
book=book[(book[‘user_id’].isin(userneed))] ##只保留在上述列表中的记录
##类似上面,但是选了不同的列
productcount=book[‘item_id’].value_counts()
productneed=productcount[