- 博客(23)
- 收藏
- 关注
原创 机器学习概论——阶段性总结1
提到机器学习,你会想到哪些关键词?你可能会想到算法、模型、分类、回归、有监督、无监督、深度学习、神经网络、自然语言处理、图像识别、迁移学习、模糊学习...... 其实对待问题,不用一开始就深入到该问题的某一个part中去,站在外围,站在高处,才能对这个问题有一个宏观性的、基础性的把握。而且在后续深入研究过程中,要始终以宏观性、全局性思维来思考问题,把握住最本质的东西,才能起到提纲挈领的作用。 其实最开始看书,我对概览性章节的内容不是很重视,反而重视的是后续...
2022-01-18 21:58:30 1132 1
原创 利用python进行数据分析——透视表与交叉表
一、透视表功能与Excel透视表相同,设置好各项参数即可示例:二、交叉表计算分组频率的特殊透视表,也可通过传入values与aggfunc参数完成与pivot_table相同的功能。示例1:示例2:示例3:...
2021-10-26 16:11:21 632
原创 利用python进行数据分析——分组级运算和转换
集合仅是分组运算的一种而已,是数据转换的一个特例(将一维数组转化为标量值的函数)。本节将介绍transform与apply方法,以便执行更多的分组运算。一、transform(有严格条件的特殊函数)完成sql中类似窗口函数功能 传入的函数只能产生两种结果:产生一个可以广播的标量值 产生一个大小相同的结果数组二、apply(最一般化的GroupBy方法)将待处理的对象拆分成多个片段 对各片段调用传入的函数 最后尝试将各片段组合到一起Note:能否充分发挥apply..
2021-10-26 15:46:58 395
原创 利用python进行数据分析——groupby分组聚合
一、聚合任何能从数组产生标量值的过程。例如mean、count、min、max等之类的聚合函数。然而,并不是只能使用这些函数,任何在分组对象上已经定义好的方法,以及自己定义的聚合运算均可使用。示例1:可利用quantile计算分组对象的分位数 ---GroupBy会高效地对Series进行切片,然后对各片调用piece.quantile(),然后将这些结果拼接成最后结果。示例2:describe方法(也可用于groupby对象,但严格来讲,其并非聚合运算)...
2021-10-26 14:38:36 3516
原创 利用python进行数据分析——groupby分组
groupby分组运算的三个阶段:split--apply--combine(拆分-应用-合并)本篇主要讲split阶段,groupby分组,即我们可以通过哪些方式对DataFrame进行分组分组键概览:DataFrame中的列 自定义数组 字典或者Series 通过函数进行分组 根据索引级别分组一、通过DataFrame中的列进行分组Note:1. df['列名'].groupby(df['列名']) ---前者表示待划分的数据,后者表示划...
2021-10-26 10:30:35 5145
原创 利用python进行数据分析——字符串操作
python能够成为流行的数据处理语言,部分原因是其简单易用的字符串和文本处理功能。大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作,则可能需要用到正则表达式。pandas对上述功能进行了加强,能够对整组数据应用字符串表达式和正则表达式。一、python内置的字符串方法二、正则表达式正则表达式提供了一种灵活的在文本中搜索或匹配字符串模式的方式。python内置的re模块负责对字符串应用正则表达式。re模块的函数分为三大类:模式匹配、替换以及拆分
2021-10-18 16:23:51 328
原创 利用python进行数据分析——数据过滤、清洗、转换等
一、移除重复数据DataFrame.duplicated() DataFrame.drop_duplicates()1. duplicated() 返回bool序列,标识是否重复 示例:2. drop_duplicates 剔除重复值 示例二、利用函数或映射进行数据转换1. Series.map() 接受函数或含有映射关系的字典型对象 示例:2. DataFrame.apply()...
2021-10-18 16:04:39 1810
原创 利用python进行数据分析——重塑层次化索引
一、重塑层次化索引stack:将数据的列“旋转”为行(从列索引的角度),从数据的角度(一行数据转为一列) unstack:将数据的行“旋转”为列Note:默认情况下,unstack/stack操作的是最内层,传入分层级别的编号或者名称即可对其他级别进行unstack/stack操作 如果不是所有的级别值都能在各分组中找到的话,unstack操作会引入缺失数据 stack默认会滤除缺失数据 对DataFrame进行unstack操作时,作为旋转轴的级别将会成为结果中的最低级别二..
2021-10-18 12:29:56 483
原创 利用python进行数据分析——合并数据集
数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重塑。合并数据集:pd.merge:数据库关联操作 pd.concat:沿一条轴将多个对象堆叠到一起 combine_first方法:用一个对象的值填充另一个对象中的缺失值1. pd.merge(写代码的时候,尽量将how,left_on,right_on等参数填写全面)Note:如果没有说明用哪个列进行连接,merge就会将重名列当做键 根据多个键进行合并,在left_on、right_on参数中传入由.
2021-10-18 12:11:06 1310
原创 利用python进行数据分析——pandas层次化索引
层次化索引是pandas的一项重要功能,它使你在一个轴上拥有多个索引级别。 MultiIndex的建立与使用 层次化索引在数据重塑和基于分组的操作中扮演者重要角色:unstack方法将层次化索引的Series重塑为一个DataFrame stack方法是unstack方法的逆运算对于DataFrame来说,每条轴都可以有分层索引 重排分级顺序 swaplevel:调整分级顺序 根据多重索引进行排序 sort_inde...
2021-10-14 09:27:54 479
原创 利用python进行数据分析——pandas相关系数、缺失值处理
相关系数和协方差 Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数,cov用于计算协方差 DataFrame的corr和cov将计算DataFrame的相关系数矩阵&协方差矩阵 DataFrame的corrwith方法可以计算其列或行跟另一个Series和DataFrame之间的相关系数 唯一值、值计数以及成员资格 unique:计算Series中的唯一值,按发现的顺序返回 value_counts:返回一个Series,其索引值为..
2021-10-14 08:51:29 1561
原创 利用python进行数据分析——pandas汇总和描述统计
Pandas对象拥有一组常用的数学和统计方法,大部分属于约简和汇总统计,用于从Series中提取单个值,或从DataFrame中提取一个Series。返回类型:小计(DataFrame返回Series、Series返回scaler) 累计型 间接统计 产生多个汇总统计(describe)note:与numpy数据方法不同,pandas的统计方法都是默认忽略缺失值的(缺失值不参与计算)quantilemaddiffpct_change...
2021-10-14 08:37:35 324
原创 利用python进行数据分析——DataFrame基本操作
本篇介绍操作Series和DataFrame的基本手段。1. 对DataFrame的列进行赋值将列表、数组、元组赋值为DataFrame的列,长度匹配即可 将Series赋值给DataFrame的列,二者的索引会精确匹配(索引不会合并,依旧是DataFrame的索引) 若被赋值的列不存在,则会创建一个新列2. 删除DataFrame的列(del)3. DataFrame的name和values属性DataFrame.index.name DataFrame.columns..
2021-10-14 08:17:25 3723
原创 利用python进行数据分析——pandas数据结构DataFrame
DataFrame是一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型。DataFrame既有行索引也有列索引。本篇主要介绍DataFrame的构造和索引。构造:二维结构 一维结构的字典 字典的字典索引: 直接索引 单个label索引(列) label序列索引(列) label(integer)切片索引(行) 布尔索引(行) label索引(DataFrama.loc()) 单个索引&am
2021-10-08 17:19:32 498
原创 利用python进行数据分析——pandas数据结构Series
实操过程中遇到的问题: DataFrame数据,若某一列(colx)数据类型为object,且想要对该列进行字符串操作,直接用【data['colx'].str.方法】会报错,可以改为【data['colx'].astype(str).str.方法】。 在使用过程中对object类型还是有疑惑,因此参考了下述文章,对理解object数据类型会起到一定帮助: 参考来源:https://zhuanlan.zhihu.com/p/161073173Pand...
2021-10-08 16:39:10 242
原创 利用python进行数据分析——05.Numpy排序/集合运算/线性代数/随机数生成
一、排序sort方法:对原数组进行就地排序,会修改数组本身,通过axis参数确定根据那个轴向进行排序 np.sort函数:生成原数组的副本,axis参数同上二、集合运算Note:若参数为多维数组,则会将多维数组拉成一维数组,毕竟集合的运算,此时多维数据就相当于一个大的数据容器,没有维数的概念三、线性代数线性代数(如矩阵乘法、矩阵分解、行列式等)是任何数组库的重要组成部分numpy.linalg中有一组标准的矩阵分解运算、求逆、行列式等的东西。他们跟MATLAB和R等语言所使用的相
2021-08-28 09:30:41 197
原创 利用python进行数据分析——04.Numpy数学和统计方法
一、Numpy数学和统计方法对整个数组进行统计计算,或者对某个轴向的数据进行统计计算。 sum、mean、std等聚合函数(约简,reduction),既可以当做数据实例的方法调用,也可以当做顶级numpy函数调用 Numpy统计聚合函数可以接收一个axis参数(用于计算该轴向上的统计值),最终结果是一个少一维的数组 cumsum、cumprod等函数不聚合,产生累计结果;也可接收一个axis参数,用于轴向上的累计统计二、基本数组统计方法Note1:若数组中函数...
2021-08-27 20:24:36 543
原创 利用python进行数据分析——03.Numpy通用函数
通用函数(ufunc):通用函数是一种对ndarray数组执行元素级运算的函数,可以看做简单函数(接受一个或多个标量值,返回一个或多个标量值)的矢量化包装器。一、一元ufunc(接受一个参数)二、二元ufunc(接受两个参数)Note1:上述二元通用函数,若数组大小不一致,则二者的运算应具有可广播性Note2:maximum、fmax、minimum、fmin ...
2021-08-27 17:41:20 259
原创 利用python进行数据分析——02.ndarray索引总结
总结:Numpy数据共有四种索引方式(整数索引、切片索引、布尔索引、花式索引(整数序列索引)),上述四种索引方式根据数据维度的不同可以进行混合索引。 P1:单独使用整数索引或切片索引,得到的是原数组的视图而非副本,对视图的任何修改都会影响原数组(此种机制主要防止数据复制产生的性能和内存问题,如果确实需要复制数据,则可以使用copy方法)。 P2:布尔型索引需注意,布尔型数组的长度需与被索引的轴的长度一致。可以使用逻辑表达式(‘|’、‘&’、‘~’)得到布尔型数组。布尔型索引得到原数组
2021-08-27 09:39:49 734 1
原创 利用python进行数据分析——01.Numpy简介
从这篇文章开始整理《利用python进行数据分析》的学习笔记。一、Numpy简介Numpy(Numerical python)是高性能科学计算和数据分析的基础包,其部分主要功能如下:ndarray:具有矢量算术运算和复杂广播功能,快速且节约空间的多维数据 用于对整组数据进行快速运算的标准数学函数 用于读写磁盘数据的工具,操作内存映射文件的工具 线性代数、随机数生成、傅里叶变换 用于集成由C、C++、Fortran等语言编写的代码(从生态系统角度看是最重要的一点),Numpy提供了一个简单
2021-08-25 11:40:47 261 1
原创 使用python进行数据分析
一、为什么使用python进行数据分析在众多解释型语言中,python的最大特点是拥有一个巨大而活跃的科学计算(scientific computing)社区,python可以轻松集成C、C++、Fortran代码,所以经常被称为“胶水语言”。python的热度提升与人工智能的发展分不开,AI深度学习本身的特点决定了其不适合静态变异性语言,而python被选做AI技术框架的基础语言,更多源于python的动态特性,现在流行的人工智能技术大多使用python进行编写,这大大促进了python语言的发展
2021-08-25 08:56:29 1612
原创 python中的正斜杠与反斜杠
一、历史渊源UNIX操作系统:设计了使用 ‘/’ 的路径分割法 DOS系统:借鉴了UNIX的目录结构,但由于在DOS系统中,斜杠 ‘/’ 已经用来作为命令行参数的标志,因此只能使用反斜杠 ‘\’ Windows系统:很多时候已经没有命令行参数的干扰,因此正斜杠与反斜杠大多数情况下可以互换二、实例验证桌面新建临时Excel文件——test.xlsx,绝对路径为‘C:\Users\liu19\Desktop\test.xlsx’下面以五种路径方式读入python:方式一:路径中采用反斜杠.
2021-08-10 11:46:15 7308 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人