Datawhale数据分析思考与问题解决

最新推荐文章于 2023-05-05 09:45:47 发布

小黑爱上排骨

最新推荐文章于 2023-05-05 09:45:47 发布

阅读量465

点赞数

本文链接：https://blog.csdn.net/sinat_41920065/article/details/117936203

版权

本文介绍了在数据分析过程中遇到的问题及其解决方案，包括conda环境变量配置、数据加载与分块读取、数据清洗中的缺失值处理，以及利用pandas进行数据处理的实用技巧。内容涵盖使用Pycharm、Anaconda、VSCode等工具，数据分块读取、数据类型转换、缺失值填充、数据合并、数据可视化等多个方面。

摘要由CSDN通过智能技术生成

软件安装及学习中碰到的问题及解决办法链接附上
参考《利用Python进行数据分析·第2版》电子版 https://www.jianshu.com/p/04d180d90a3f --very good！！
‘conda’ 不是内部或外部命令,也不是可运行的程序或批处理文件。解决办法“
添加环境变量：
我的电脑—右键属性—高级系统设置—环境变量—系统变量—Path—双击进入—新建—浏览—找到Anaconda和Scripts的路径添加，然后点击确定就好了。”
https://blog.csdn.net/ITLearnHall/article/details/81708148 //安装Anaconda的软件及环境
https://blog.csdn.net/m0_47931820/article/details/114242664 //CondaHTTPError错误（以open3d安装为例）
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ —清华大学开源软件镜像站

https://blog.csdn.net/qq_43529415/article/details/100847887?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2_allbaidu_landing_v2~default-6-100847887.nonecase&utm_term=%E5%B7%B2%E7%BB%8F%E8%A3%85%E4%BA%86python%20%E8%BF%98%E8%83%BD%E8%A3%85anaconda%E4%B9%88&spm=1000.2123.3001.4430
//python与anaconda安装（先安装了python后安装anaconda，基于python已存在的基础上安装anaconda）——逼死强迫症、超详解
https://www.toutiao.com/i6867758223865152014?wid=1624535564646-- wifi接收器
https://bbs.huaweicloud.com/blogs/244886 --VSCode安装教程（超详细）
在Pycharm 显示数据不全，可以使用pd.set_option函数

在这里插入图片描述
如下图所示：1、pd.set_option(‘expand_frame_repr’, False)
True就是可以换行显示。设置成False的时候不允许换行

2、pd.set_option(‘display.max_rows’, 10)
pd.set_option(‘display.max_columns’, 10)
显示的最大行数和列数，如果超额就显示省略号，这个指的是多少个dataFrame的列。如果比较多又不允许换行，就会显得很乱。

3、pd.set_option(‘precision’, 5)
显示小数点后的位数

4、pd.set_option(‘large_repr’, A)
truncate表示截断，info表示查看信息，一般选truncate

5、pd.set_option(‘max_colwidth’, 5)
列长度

6、pd.set_option(‘chop_threshold’, 0.5)
绝对值小于0.5的显示0.0

7、pd.set_option(‘colheader_justify’, ‘left’)
显示居中还是左边，

8、pd.set_option(‘display.width’, 200)
横向最多显示多少个字符，一般80不适合横向的屏幕，平时多用200.
在这里插入图片描述

1 第一章：数据加载

1.1.1 任务一：导入numpy和pandas
import numpy as np
import pandas as pd
【提示】安装Pycharm numpy和pandas标红波浪线时，点击安装即可。

1.1.2 任务二：载入数据
(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据
df = pd.read_csv(‘train.csv’)
df.head(3)
使用os.getcwd()查看当前工作目录方法：
print（‘当前目录是%s’%(os.getcwd()）
在这里插入图片描述
pd.read_csv写正确拼写，不然报错好久没注意到这里，以为引用错误。
相对路径载入数据时，需要把数据文件安置在和.py同个文件夹下就可以。可通过查看当前工作目录放置文件位置。
相对路径读取正确结果如下:
相对路径读取文件夹结果如图
绝对路径读取报错：需要加上文件名啊这个不能忘记的。。。
在这里插入图片描述
修改后正确结果如下：**
1.在文件路径使用 \：在 \ 前多加一个\ ；或者在文件路径前加上 r
2.使用open函数打开路径中含有中文的文件；或者使用engine=‘python’。
参考：https://blog.csdn.net/weixin_45919895/article/details/110004423
在这里插入图片描述
pd.read_table() 表现与pd.read_csv()不同（能读出来就行这块有点疑问）
如下图pd.read_table()
蓝色是pd.read_table()的样式

pd.read_csv()如下图
在这里插入图片描述
pd.read_csv()和pd.read_table()的不同

pd.read_csv() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
pd.read_table() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符“\t”
如果想pd.read_csv()和pd.read_table()效果一样，需要怎么做？
指定分隔符
pd.read_table(’’, sep=’,’)
了解一下’.tsv’和’.csv’的不同，如何加载这两个数据集？
文件类型使用
| tsv | 使用 \t 作为字段值的分隔符|
|csv| 使用 , 作为字段值的分隔符|

#加载'.tsv'
pd.read_csv('文件名'

最低0.47元/天解锁文章

小黑爱上排骨

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Datawhale数据分析思考与问题解决

软件安装及学习中碰到的问题及解决办法链接附上‘conda’ 不是内部或外部命令,也不是可运行的程序或批处理文件。解决办法“添加环境变量：我的电脑—右键属性—高级系统设置—环境变量—系统变量—Path—双击进入—新建—浏览—找到Anaconda和Scripts的路径添加，然后点击确定就好了。”https://blog.csdn.net/ITLearnHall/article/details/81708148 //安装Anaconda的软件及环境https://blog.csdn.net/m0_
复制链接

扫一扫