淘宝购买预测——logistic回归，决策树，随机森林

最新推荐文章于 2024-07-08 17:27:47 发布

哎呀是小白

最新推荐文章于 2024-07-08 17:27:47 发布

阅读量9.1k

点赞数 3

分类专栏：数据挖掘文章标签： logistic回归决策树随机森林

本文链接：https://blog.csdn.net/BaiJingting/article/details/51519027

版权

这篇博客基于用户在商品全集上的移动端行为数据，探讨了使用logistic回归、决策树和随机森林进行购买预测的方法。尽管当前预测效果不佳，作者认为增加更长时间跨度的行为数据并赋予不同时间权重，以及探索如何利用用户位置和商品分类信息，有望提升预测准确性。

摘要由CSDN通过智能技术生成

数据是用户在商品全集上的移动端行为数据（D）,表名为tianchi_fresh_comp_train_user_2w，包含如下字段：
user_id : 用户标识
item_id : 商品标识
behavior_type : 用户对商品的行为类型，包括浏览、收藏、加购物车、购买，对应取值分别是1、2、3、4
user_geohash ：用户位置的空间标识，可以为空，由经纬度通过保密的算法生成
item_category ：商品分类标识
time ：行为时间，精确到小时级别

1、预测效果并不好，可能是因为特征只选择了前一天的四种行为的次数，如果选择前一周或者更多天的数据应该会更好，离得越近的数据权重设置越高，越远的权重越低。
2、用户位置和商品分类信息不知道怎么用

# -*-coding:utf-8 -*-
__author__ = 'Bai'
import os, numpy as np,math
os.chdir('C:/Bai/taobao/fresh_comp_offline')
f = open('tianchi_fresh_comp_train_user.csv')
context = f.readlines()

##feature
u_dic = [{} for i in range(4)]
for line in context:
    line = line.replace('\n','')
    array = line.split(',')
    if array[0] == 'user_id':
        continue
    time = array[-1].replace(' ','-')
    time =