版权声明:本文为博主原创文章,未经博主允许不得转载。
一、项目要求
1、成功读取“商铺数据.csv”文件
2、解析数据,存成列表字典格式:[{
'var1':value1,'var2':value2,'var3':values,...},...,{
}]
3、数据清洗:
① comment,price两个字段清洗成数字
② 清除字段缺失的数据
③ commentlist拆分成三个字段,并且清洗成数字
4、结果存为.pkl文件
二、代码实现
2.1 读取数据
f = open('商铺数据.csv','r', encoding='utf8')
# 查看数据
for lint in f.readlines()[:5]:
print(lint.split(','))
2.2 数据清洗
创建 comment、price、commentlist
# 函数式编程
# comment 清洗函数:用空格分段,选取结果 list 的第一个为点评数,并且转换为整型
def fcm(s):
if '条' in