![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析学习
天伦ltl
这个作者很懒,什么都没留下…
展开
-
NumPy快速入门
NumPy 高效在科学计算中使用Numpy数组结构比使用Python本身自带的列表list要快。NumPy 直接利用现代 CPU 的矢量化指令计算,加载寄存器中的多个连续浮点数,并且NumPy中的矩阵计算可以采用多线程的方式,充分利用CPU。注意除了使用NumPy之外,还需要注意使用一些小技巧来提升内存和提高计算资源利用率。1.避免采用浅拷贝,而是采用就地操作的方式。X *= 2Y ...原创 2019-06-21 20:14:20 · 155 阅读 · 0 评论 -
pyhton pandas快速入门
pandas 入门pandas是基于numpy结构的含有更高级数据结构和分析能力的工具包。pandas和核心数据结构是Series和DataFrame两种数据结构Series 和 DataFrameSeries是一个定长的字典序列。说是定长是因为在储存的时候,相当于两个ndarray,这也是和字典结构最大的不同。Series有两个基本属性:index和values。在Series中,in...原创 2019-06-23 11:50:01 · 189 阅读 · 0 评论 -
数据清洗是什么
数据清洗是什么数据清洗就是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。数据清洗规则数据清洗有四个关键点。完整性单条数据是否存在空值,统计的字段是否完善全面性观赏某一列的全部数值,我们可以通过比较最大值,最小值,平均值,数据定义等来判断数据是否全面合法性数值的类型、内容、大小是否符合我们设定时候的预想。例如:人类年龄超过1000岁,这...原创 2019-06-27 23:22:21 · 17006 阅读 · 0 评论 -
Pandas之drop_duplicates:去除重复项
方法DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)1参数这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。subset : column label or sequence of labels, optional用来指定特...转载 2019-06-27 23:26:05 · 930 阅读 · 0 评论 -
Pandas 文本数据方法 split()rsplit()
split()正序分割列;rsplit()逆序分割列Series.str.split(pat=None, n=-1, expand=False)参数:pat : 字符串,默认使用空白分割.n : 整型,默认为-1,既使用所有的分割点分割expand : 布尔值,默认为False.如果为真返回数据框(DataFrame)或复杂索引(MultiIndex);如果为假,返回序列(Series)...转载 2019-06-27 23:26:41 · 1064 阅读 · 0 评论 -
python数据可视化方法
可视化图形有哪些?比较比较数据间各类别的关系,比如折线图联系查看多个变量之间的关系,比如散点图构成数据占整体的比重,比如饼图分布变量的分布情况,比如直方图种类介绍散点图我们使用matplotlib包这里,先导入import matplotlib.pyplot as plt散点图适用于观察变量之间的关系散点图语句:plt.scatter(x, y, marker=No...原创 2019-06-28 21:32:59 · 212 阅读 · 0 评论