菜市场价格分析 python pandas Apriori算法 数据预处理

1. 安装python包

  1.  numpy
  2.  pandas

2. 数据预处理

     1. 由于表格非常奇怪,我们对蔬菜和肉类分别处理,并合并

      2.  对有丢失值的列直接drop

3. 编码分析


# coding: utf-8

# In[1]:


# coding = utf-8
import numpy as np
import pandas as pd

data = pd.read_excel("data.xls",encoding='utf-8')#.astype('float')
data.drop(["肉食禽蛋","批发价格"],axis=1,inplace=True)
data=data.drop_duplicates().dropna()
data=data.dropna(axis=1)
index2drop = data["蔬菜名"]!="蔬菜类"
data=data[index2drop]
data = data.pivot(index='日期',columns='蔬菜名',values='价格')

data2 = pd.read_excel("data.xls")#.astype('float')
data2.drop(["蔬菜名","价格"],axis=1,inplace=True)
data2=data2.drop_duplicates().dropna()
index2drop = data2["肉食禽蛋"]!="肉食禽蛋类"
data2=data2[index2drop]
data2 = data2.pivot(index='日期',columns='肉食禽蛋',values='批发价格')
data2.head(6)
data = pd.merge(data,data2,on="日期")
data.head(10)
data.drop(["冻芋头","北瓜"],axis=1,inplace = True)
data.dropna(thresh=10,axis=1,inplace=True)
data.head()
data.dtypes
# data.to_csv("data1.csv",encoding='utf-8')
#
# # help(pd.concat)
# data=pd.concat([data,data2],keys="日期")
# data.head(100)
# data = pd.merge(data,data2,left_on="日期")


# # 在excel中打开data1.csv
# ## 将乱码的缺失值替换成空 (ctrl + F)
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值