Datawhale数据分析思考与问题解决

本文介绍了在数据分析过程中遇到的问题及其解决方案,包括conda环境变量配置、数据加载与分块读取、数据清洗中的缺失值处理,以及利用pandas进行数据处理的实用技巧。内容涵盖使用Pycharm、Anaconda、VSCode等工具,数据分块读取、数据类型转换、缺失值填充、数据合并、数据可视化等多个方面。
摘要由CSDN通过智能技术生成

软件安装及学习中碰到的问题及解决办法链接附上
参考《利用Python进行数据分析·第2版》 电子版 https://www.jianshu.com/p/04d180d90a3f --very good!!
‘conda’ 不是内部或外部命令,也不是可运行的程序 或批处理文件。解决办法“
添加环境变量:
我的电脑—右键属性—高级系统设置—环境变量—系统变量—Path—双击进入—新建—浏览—找到Anaconda和Scripts的路径添加,然后点击确定就好了。”
https://blog.csdn.net/ITLearnHall/article/details/81708148 //安装Anaconda的软件及环境
https://blog.csdn.net/m0_47931820/article/details/114242664 //CondaHTTPError错误(以open3d安装为例)
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ —清华大学开源软件镜像站

https://blog.csdn.net/qq_43529415/article/details/100847887?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allbaidu_landing_v2~default-6-100847887.nonecase&utm_term=%E5%B7%B2%E7%BB%8F%E8%A3%85%E4%BA%86python%20%E8%BF%98%E8%83%BD%E8%A3%85anaconda%E4%B9%88&spm=1000.2123.3001.4430
//python与anaconda安装(先安装了python后安装anaconda,基于python已存在的基础上安装anaconda)——逼死强迫症、超详解
https://www.toutiao.com/i6867758223865152014?wid=1624535564646-- wifi接收器
https://bbs.huaweicloud.com/blogs/244886 --VSCode安装教程(超详细)
在Pycharm 显示数据不全,可以使用pd.set_option函数

在这里插入图片描述
如下图所示:1、pd.set_option(‘expand_frame_repr’, False)
True就是可以换行显示。设置成False的时候不允许换行

2、pd.set_option(‘display.max_rows’, 10)
pd.set_option(‘display.max_columns’, 10)
显示的最大行数和列数,如果超额就显示省略号,这个指的是多少个dataFrame的列。如果比较多又不允许换行,就会显得很乱。

3、pd.set_option(‘precision’, 5)
显示小数点后的位数

4、pd.set_option(‘large_repr’, A)
truncate表示截断,info表示查看信息,一般选truncate

5、pd.set_option(‘max_colwidth’, 5)
列长度

6、pd.set_option(‘chop_threshold’, 0.5)
绝对值小于0.5的显示0.0

7、pd.set_option(‘colheader_justify’, ‘left’)
显示居中还是左边,

8、pd.set_option(‘display.width’, 200)
横向最多显示多少个字符, 一般80不适合横向的屏幕,平时多用200.
在这里插入图片描述

1 第一章:数据加载

1.1.1 任务一:导入numpy和pandas
import numpy as np
import pandas as pd
【提示】安装Pycharm numpy和pandas标红波浪线时,点击安装即可。

1.1.2 任务二:载入数据
(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据
df = pd.read_csv(‘train.csv’)
df.head(3)
使用os.getcwd()查看当前工作目录方法:
print(‘当前目录是%s’%(os.getcwd())
在这里插入图片描述
pd.read_csv写正确拼写,不然报错好久没注意到这里,以为引用错误。
相对路径载入数据时,需要把数据文件安置在和.py同个文件夹下就可以。可通过查看当前工作目录放置文件位置。
相对路径读取正确结果如下:
相对路径读取文件夹结果如图
绝对路径读取报错:需要加上文件名啊 这个不能忘记的。。。
在这里插入图片描述
修改后正确结果如下:**
1.在文件路径使用 \:在 \ 前多加一个\ ;或者 在文件路径前加上 r
2.使用open函数打开路径中含有中文的文件;或者 使用engine=‘python’。

参考:https://blog.csdn.net/weixin_45919895/article/details/110004423
在这里插入图片描述
pd.read_table() 表现与pd.read_csv()不同(能读出来就行 这块有点疑问)
如下图pd.read_table()

蓝色是pd.read_table()的样式

pd.read_csv()如下图
在这里插入图片描述
pd.read_csv()和pd.read_table()的不同

pd.read_csv() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
pd.read_table() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符“\t”

如果想pd.read_csv()和pd.read_table()效果一样,需要怎么做?
指定分隔符
pd.read_table(’’, sep=’,’)
了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?
文件类型 使用
| tsv | 使用 \t 作为字段值的分隔符|
|csv| 使用 , 作为字段值的分隔符
|

#加载'.tsv'
pd.read_csv('文件名'
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值