使用Jupyter Notebook导入csv数据时的一个错误

最新推荐文章于 2022-12-07 17:10:06 发布

Gift _OYS

最新推荐文章于 2022-12-07 17:10:06 发布

阅读量3.7k

点赞数 5

文章标签： jupyter python

本文链接：https://blog.csdn.net/qq_41793287/article/details/120829101

版权

项目场景：

使用Jupyter Notebook导入csv数据时的错误

问题描述：

前两天学了几个机器学习的模型，今天想拿kaggle上的数据集练练手，然后开开心心的打开jupyter，正准备一展身手时，结果刚开始导入数据集就把我整懵了。一般我都是习惯直接那pandas的read_csv，先把文件upload到工作目录下

在这里插入图片描述
代码里直接上，先引个包，然后就开始读，读完好像没啥问题，打印出来看看吧，嚯！这可把我吓坏了

import pandas as pd
data = pd.read_csv("clinvar_conflicting.csv")
data

在这里插入图片描述

这是个啥东西？特征不像特征，标签不像标签的。定睛一看，好像是吧我的第一行当作列名了。hhh
然后网上各种找解决方案，又是改编码，又是修改属性，结果这个bug没解决，又冒出来好多bug，比如UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd4 in position 3: invalid continuation byte，UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd4 in position 3: invalid continuation byte。。。搞得我心态有点崩了

然后我再看看数据集，拿excel打开，完完整整，没啥问题

在这里插入图片描述
拿记事本打开，emmmm。。。好像有点小问题，第五行那里为啥是dGen啥的开头，不应该是一个数字吗，，拉到最后一看，原来是上一行太长了，结果换行了，hh

在这里插入图片描述

我心里一想不对啊，我刚才那spyder是呢一遍也打开了呀，不信你看

这到底是为啥呢？
然后我还仔细看了看数据，诶？好像有的数据怪怪的，比如这个应该是一个字段下的，用“”包在一起的字符串，但是字符串里有,，难道是jupyter按照字符串里的逗号分隔了？？仿佛自己知道了天机，然后又是一顿操作猛如虎，各种找资料，还是解决不了。然后我又看一眼jupyter的数据，哦，好像jupyter已经解决了这个问题了，我是zz。
然后我看了kaggle上其他人的代码，人家这不是好好的吗？难道我用了个假python？？？
在这里插入图片描述
最后气得我直接在jupyter打开看文件，好家伙，这是啥啊，咋少了这么多数据呢？？？

怪不得我刚才在jupyter里上传的时候命名30多兆的文件到这里就只剩5兆了

好吧，我明白了，是不是只要我把路径改为绝对路径就好使了？
在这里插入图片描述
芜湖！果真，，，，终于导进来了！
（红warning可以参考这个https://www.cnblogs.com/bigtreei/p/10496740.html）
接下来就可以愉快的coding了！！！
呜呜呜呜呜，就这个小bug弄了一下午，程序员长路漫漫啊。