Python——电商用户购买系列相关性

最新推荐文章于 2024-07-16 09:16:38 发布

一克拉的小蚂蚁

最新推荐文章于 2024-07-16 09:16:38 发布

阅读量782

点赞数 1

分类专栏： Python 数据分析文章标签： Python 电商数据分析相关性

本文链接：https://blog.csdn.net/qq_20408903/article/details/90297543

版权

Python 同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

数据分析

1 篇文章 0 订阅

订阅专栏

背景：假设电商平台会员300万，商品按照系列划分有30个系列，本次分析的目的：分析用户购买系列间的相关性。

# -*- coding: utf-8 -*-
"""
Created on Mon May 13 13:40:14 2019

@author: liuxiaohuan
"""


import os
import cx_Oracle
import pandas.io.sql as sql
import pandas as pd
import numpy as np
import time
start = time.clock()

#数据库表中有中文,如不加以下代码,中文会乱码
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'

#连接数据库
conn = cx_Oracle.connect('erfd/sdfdgfdg@192.547.0.47/sdad')
                         
                         
                         
sqlstr1 = '''select distinct xilie from list_xilie'''  
sqlstr2 = '''select distinct memberid from t05_e3_order_bill_main_info where memberid<1000'''     

#读取转换用户ID和系列
col = sql.read_sql(sqlstr1,conn)
col_data = np.array(col)
col_list=col_data.tolist()

memberid=sql.read_sql(sqlstr2,conn)
memberid_data=np.array(memberid)
memberid_list=memberid_data.tolist()


col_list_final=[]
for i in range(0,len(col_list)):
    #print(col_list[i])
    col_new=str(col_list[i][0])
    #print(col_new)
    col_list_final.append(col_new)


memberid_list_final=[]
for i in range(0,len(memberid_list)):
    memberid_new=str(memberid_list[i][0])
    memberid_list_final.append(memberid_new)


#构造数据结构
data=pd.DataFrame(0,columns=col_list_final,index=memberid_list_final)
#print(data)

#订单表中，用户购买系列
sqlstr = '''select head.memberid,xilie.xilie,sum(dtl.act_pay_amt) as amt
        from list_xilie xilie
        join t05_e3_order_bill_dtl_info dtl on xilie.sku=dtl.sku
        join t05_e3_order_bill_main_info head on head.order_billid=dtl.order_billid
        where trunc(head.PAYMENT_TM/(100 * 6 * 6 * 24) + TO_DATE('1970-01-01 08:00:00', 'YYYY-MM-DD HH:MI:SS'))
        between to_date('2019-05-05','yyyy-mm-dd') and to_date('2019-05-13','yyyy-mm-dd')
        and head.ORDER_BILL_STATUS <> 3
        group by head.memberid,xilie.xilie'''

result = sql.read_sql(sqlstr,conn)
print(type(result))


for index,row in result.iterrows():#遍历第2个表中的每一行数据
	col_name=row['XILIE']
	real_index=row['MEMBERID']
	data.loc[real_index,col_name]=row['AMT']
    
data=data.fillna(0)
data=data.corr()
data.to_csv ('F:\\out190101_0512.csv',encoding = "utf-8",na_rep = "",header=True)
print(data.corr())

其中，以上代码中data的数据结构如下：