【数据挖掘】遇到的坑+解决方法

由于数挖作业要使用pycharm处理数据,开始从零开始摸索python😥。所以可以说是有很多傻瓜问题,但是还是记录一下遇到的问题和解决方法:

1、UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xa1 in position 0: invalid start byte 问题

我想要读入文件,代码如下:

data = pd.read_csv('xxx.csv')

出错的翻译: 'utf-8’编解码器无法解码位置0中的字节0xa1:无效的起始字节 。

说白了就是文件保存的时候选择的不是utf-8的编码格式,我当时选了ANSI,所以报错。另存一次文件即可。

解决方案:
教程

2、SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame 问题

翻译:一个值试图在DataFrame的一个切片的副本上设置。

一开始我的代码:(问题出在最后一句给单元格赋值。这里我企图给cutwords那一列的第ii行赋值,但是报错了。)

#多加一列用于存储分词
data['cutwords'] = 'cutwords'

for ii in np.arange(row):
#...(中间代码省略)
data.cutwords[ii] = str(cutwords.values)

查找资料:给某一个单元格赋值

将最后一句改为:

data.loc[ii,'cutwords'] = str(cutwords.values)

最后print(data)查看一下数据,发现没有问题了。

3、TypeError: cannot use a string pattern on a bytes-like object

问题翻译:不能在字节类对象上使用字符串模式。

原来的代码:

data['number'] = "number"
s = SnowNLP(reviews)
number = s.sentiments

笑死,突然发现我的review是数组,应该写成 review[i]才对。

END

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值