数据分析
一颗西蓝花
小菜鸟想进大厂
展开
-
使用Python进行数据分析(CH01)
第一步 导入数据data = pd.read_csv('path', names = [col1, col2, col3])第二步 查看数据2.1 查看数据的前5行data.head()2.2 查看数据的所有列的名字data.columns2.3 删除掉不需要的列data.drop(columns = [col1, col2], axis = 1, inplace = Tru...原创 2019-02-28 18:39:34 · 475 阅读 · 0 评论 -
os.listdir()
在数据算法竞赛中,我经常看见别人的代码中出现下面几行代码:import osprint(os.listdir('path'))我最开始对os.listdir('path')的理解是,返回当前工作区域的下的文件,因此我一直不明白,为什么,我需要import os而不是直接用ls就好。后来,我查阅了一下资料,其实os.listdir('path')是返回指定文件夹包含的文件或者文件夹的列表,...原创 2019-03-15 11:37:24 · 13087 阅读 · 0 评论 -
jupyter notebook插入本地图片
如何在Jupyter Notebook中插入本地图片?我在网上搜索的时候,看到网上写的都是,将cell调节成为markdown cell, 然后输入下面的代码![title](img/picture.png)于是,在调节了路径之后,我按照上方的说明进行了操作,但是显示图片无法显示。我思考了一下,才意识到,上面代码中的img是表示这里有一个文件夹,也就是说,我们需要先将我们的图片,放在一个...原创 2019-03-15 17:54:52 · 6682 阅读 · 1 评论 -
在Pandas中使用iloc, loc和ix来选择行和列
1. 主要用法在Pandas里面,主要由3种方法来选择数据。通过行来选择(.iloc)通过label和条件表达来选择数据(.loc)2. 使用iloc来选择数据iloc意味着integer-location based indexing / selecting by position.iloc 索引语法如下data.iloc[<row selection>,<c...原创 2019-03-20 10:12:16 · 2792 阅读 · 0 评论 -
稀疏矩阵
稀疏矩阵是什么?对于一个矩阵,如果其为0的元素多于非0的元素,且为0的元素没有排列规律,则其是稀疏矩阵。如果非0的元素多于为0的元素,则其实稠密矩阵。...原创 2019-07-25 15:16:48 · 139 阅读 · 0 评论 -
什么时候需要填充 -999
什么时候需要填充 -999最近在看kaggle 的ieee,发现其中一个kernel,尤其简单。发现,其对数据做的所有处理,只有X_train = X_train.fillna(-999)X_test = X_test.fillna(-999)觉得很好奇,为什么可以只填充 -999 这样的数值?这里涉及到一个实际问题,在实际业务中,我们能够获取的数据,经常都有很多缺失值。缺失填充...原创 2019-09-08 14:42:56 · 581 阅读 · 0 评论