知识点概述
![480a409dd9c4b91225131e5b796e2a3a.png](https://i-blog.csdnimg.cn/blog_migrate/38334681ae3b84b71f7ef9114fcee416.jpeg)
![e57fe0b9ffab6caf4774c3dd9b66d2a2.png](https://i-blog.csdnimg.cn/blog_migrate/5c4bdcfe92400edc20de091770182463.jpeg)
数据分析基础
一维数据结构
导入numpy、pandas
![291d192a7e7ba0b91e93251b4127690a.png](https://i-blog.csdnimg.cn/blog_migrate/55bf19783d1376dbbffa70660f76cee7.png)
- numpy
使用numpy定义一个一维数组
![d3e7dfd485e88054fef8e5498474703d.png](https://i-blog.csdnimg.cn/blog_migrate/1c07a8d4fa3b9125b1de431cb67b691d.png)
查询元素
![1e1ed72e881f10033633da4587771430.png](https://i-blog.csdnimg.cn/blog_migrate/9d7750a8bc8ffed6d91d5a787e5cfbaf.png)
array类型的数据可以使用类似列表的切片形式查看数据
![fb4e572097b069ea66a29a1c30200605.png](https://i-blog.csdnimg.cn/blog_migrate/519a709de3fd0cfc0722d4741700a844.png)
可以使用for循环来逐个查询元素
![85fdac6172165bdcc28ef7483dbc3566.png](https://i-blog.csdnimg.cn/blog_migrate/3752d592ce31e4141810381527331748.png)
通过dtype可以查看数组中元素的类型
![01c5df6abbb1b183b0d7fa3b617a5d87.png](https://i-blog.csdnimg.cn/blog_migrate/2c3bee470b54bfc733416545fa448e5e.png)
数组中的元素可以进行统计计算如平均值、标准差等
![02f7dc5dba99194f299b0b2a3013c3e4.png](https://i-blog.csdnimg.cn/blog_migrate/27f53a42f23948881f51e6d36e8faef0.png)
数组中的元素是可以进行向量化的计算
![43592ed288e4de628ca73dd579016c06.png](https://i-blog.csdnimg.cn/blog_migrate/e6ebcb8cf4087108b16632f986a2232c.png)
- pandas
pandas中的一位数组结构是用Series来实现的
![fb80b3b19f5f2bf14354de715911a219.png](https://i-blog.csdnimg.cn/blog_migrate/959ce6c719a2ec6be80b5c236f015ee0.png)
获取数据的描述性统计信息
![d35bcf00e02f3c4d7904c35787a31f15.png](https://i-blog.csdnimg.cn/blog_migrate/da88e983c53955edb5cd5039bea5c005.png)
查看Series中每个元素出现的次数
![1db60bfd37a91831a4697bbff15613cc.png](https://i-blog.csdnimg.cn/blog_migrate/1614181234d7e7eff589e348fa033c2a.png)
获取Series中的元素,有两种方式
![926e5f0eb3a0d96bd33b589f184e250b.png](https://i-blog.csdnimg.cn/blog_migrate/4c856dc3d735aa56a06e78d278560fe1.png)
Series的向量化计算
![3cc30e1cdac870aa58b008c0516c251e.png](https://i-blog.csdnimg.cn/blog_migrate/9f67d05521764c669a8164518ce952b6.png)
图中的NaN为缺失值,因为s1和s2的索引不同,当进行向量相加时,只有索引相同的项可以相加,索引不同时,使用缺失值,也就是NaN代替。
对Series中的缺失值进行处理有两种方式,一种是直接删除;另一种是向量相加时,默认当索引不匹配时,使用0来代替缺失的数据。
直接删除缺失值。
![f4c16313e862dc331b307c9f0fbe900d.png](https://i-blog.csdnimg.cn/blog_migrate/d75d1a213c9d3a6850b93d4b48f89023.png)
当dropna()的()中没有任何值时,不会替换原数据。
![81c595cd40d1579b7e9a55d8c39b7b10.png](https://i-blog.csdnimg.cn/blog_migrate/0722e36e55b078f01a904a811fa9c9b8.png)
当dropna(inplace=True)时,会替换原数据。