![](https://img-blog.csdnimg.cn/direct/8ba8f460ebb449269c9eb3cd47433709.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python理论知识
文章平均质量分 50
入职数据分析师系列
zikn_92
死性不改,浪漫至上。
展开
-
Python截取函数
substring = s[-6:-1] # 从倒数第6个字符开始到倒数第1个字符(不包括倒数第1个字符)结束。sublist = my_list[1:4] # 截取索引1到索引4之间的元素(不包括索引4)substring = s[7:12] # 从索引7开始到索引12(不包括12)结束。substring = s[::2] # 从头到尾每隔一个字符截取。print(sublist) # 输出: [2, 3, 4]print(substring) # 输出: World。原创 2024-05-29 11:23:14 · 304 阅读 · 0 评论 -
Python 字符串处理常用函数小汇总
text.startswith("only",2,10)#text的第3-9个字符以"only"开通。"1999".zfill(9)#用0填充,类似 "1999".rjust(9,"0")" 1999 ".strip("9")#去重左右两边的"9",两边是空格没有9。text.startswith("only")#text以"only"开通。print(text.replace("能","\n"))"1999".strip("9")#去重左右两边的"9""12345".join(" ")#重复并拼接。原创 2024-05-27 14:12:17 · 759 阅读 · 0 评论 -
Python专题:十七、做个小游戏
input函数 等待用户输入。字典 保存题干,选项和答案。遍历 题目列表用于展示。列表 保存题目。1、根据题库内容出单选题。2、提示作答,并给结果。判断输入,并继续提示。原创 2024-05-15 15:06:32 · 237 阅读 · 0 评论 -
Python专题:十六、异常处理(2)
计算机会产生各种各样的异常,盲目信任的危害,程序崩溃,结果错误,在网络中引发的安全问题,防御性编程很重要!try关键词,监视语句是否发生异常,except关键词,如果发生异常执行命令。finally关键词语句总是会执行。except异常捕获。原创 2024-05-15 14:40:44 · 204 阅读 · 0 评论 -
Python专题:十六、异常处理(1)
Python中的错误和异常。原创 2024-05-15 14:29:23 · 482 阅读 · 0 评论 -
Python专题:十五、JSON数据格式
近些年的大数据、数据挖掘就是对互联网中的各种非结构化的数据的分析和处理。参数separators(元素分隔符,对象键值分隔符)josn模块 dumps()函数JOSN格式转换。dump()函数,JOSN文件读写。Python的数据处理:JOSN。+没有严格的结构化规则,限制更少。最容易处理的数据就是结构化数据。+明确的结构属性,分析更容易。计算机的主要工作:处理数据。非结构化数据:视频,文件等。参数indent指定缩进数。对象键值分隔符:+空格。原创 2024-05-15 11:26:11 · 367 阅读 · 0 评论 -
Python专题:十四、文件操作(2)
open函数可以很好的处理文件不存在的问题,但是无法解决目录不存在的问题。文件指针:对于刚刚打开的文件,文件指针位置为0。close函数也可以自动刷入磁盘。带缓冲的文件,先写进缓冲区。结尾使用\\来避免语义错误。原创 2024-05-15 10:25:14 · 207 阅读 · 0 评论 -
Python专题:十四、文件操作(1)
现代计算机中,我们使用文件系统来保存数据,使用目录结构组织文件数据的系统。Python程序读取自己的代码文件,文件均为01两个二进制位组成。readlines()函数,读取整个文件并返回一个列表。文件扩展名:Window系统中,通过扩展名来识别文件。文本文件:ascii,Unicode,字符编码。Python编码文件是。UFT-8和ASCII。原创 2024-05-15 09:39:06 · 178 阅读 · 0 评论 -
Python专题:十三、日期和时间(2)
today()函数 date类型。datetime 模块。原创 2024-05-14 15:20:27 · 202 阅读 · 0 评论 -
Python专题:十三、日期和时间(1)
时间戳:从公元1970年1月1日0点0分0秒起,到现在总共经历过的秒杀。模块就是别人写好的代码,通过将模块引入到代码里,使用已经实现好的功能。math模块,import+模块名。Python 日期和时间处理模块。原创 2024-05-14 11:06:25 · 108 阅读 · 0 评论 -
Python专题:十二、再谈函数
Python有一个屏蔽机制,要修改的变量是一个作用域只在本函数中的局部变量。所有循环的代码都可以通过递归来实现,递归占用资源多,循环更容易编写。放在一起用,在这里用了普通参数,元组收集参数,字典收集参数。def函数名(**参数)一次传入多个参数,并转化成字典。参数混用,普通的参数最好放在不限个数的特殊参数之前。global关键词,全局变量声明,尽量少用全局变量。递归,函数循环的调用自己,会消耗栈内存。一次传入多个参数,并保存在元组中。def函数名(*参数)原创 2024-05-11 09:56:45 · 136 阅读 · 0 评论 -
Python专题:十一、集合
字符串中的重复元素只能保留一个。- 求两个集合的差集。& 求两个集合的交集。| 合并两个集合元素。原创 2024-05-10 16:32:34 · 168 阅读 · 1 评论 -
Python专题:十、字典(2)
update()函数,字典y的元素,去更新字典x的元素,少补,异同。'''三个单引号用来输入多段落字符串。如果关键词不存在get返回的默认值。get(参数一,参数二)原创 2024-05-10 16:07:45 · 159 阅读 · 1 评论 -
Python专题:十、字典(1)
数据类型:字典,是一个集合性质的数据类型。reverse()函数列表递减排序。sort()函数列表递增排序。values()函数字典取值。keys()函数字典取关键字。zip()函数元素打包成元组。list()函数转化成列表。字典{关键字:数值}②同时取出关键字和值。原创 2024-05-10 15:09:22 · 142 阅读 · 0 评论 -
Python专题:九、元组
评估Python的耗时,timeit()函数评估语句运行速度。动态分配 内存地址是动态分配的,每次的数值不一致。写代码的时候注意设置适当的限制来控制意外情况。append()函数添加列表元素。remove()函数移除列表元素。变量保存的就是数据在内存中的地址。id()函数查看变量存储地址。list()函数元组生成列表。可修改内部列表元素内部数值。copy()函数复制列表。拖了()函数列表声才元组。原创 2024-05-10 14:40:36 · 165 阅读 · 0 评论 -
Python专题:八、列表(3)
字符串列表的转化,join()函数列表生成字符串。reverse()函数从大到小排列。split()函数字符串拆分成列表。>不支持字符串和整数之间的比较。sort()函数从小到大排列。原创 2024-05-10 14:10:20 · 182 阅读 · 0 评论 -
Python专题:八、列表(2)
in 关键字判断元素是否在列表中,index函数检查元素索引值。input函数,打印提示并返回输入值给变量cal_range。寻找质数的代码,质数是只有1和它本身两个数可以将它整除。使用了while循环尝试所有可能除数。Python的内置数据类型——列表。定义一个列表a,直接遍历,列表元素。for in循环,通过索引遍历列表。count函数检查列表元素个数。range(参数一,参数二)索引号二:最后元素索引加一。索引号一:起始元素索引。缺省索引号:起头/止尾。列表支持运算:+ *原创 2024-05-10 11:31:56 · 298 阅读 · 0 评论 -
Python专题:八、列表(1)
访问列表元素的方式也是[索引],也是从0开始的,不能超过最大值。append()函数列表尾部增加元素。insert()函数指定位置插入元素。remove()函数删除列表特定元素。可以是字符串,浮点数,整数,列表。pop()函数列表尾部删除元素。[索引][索引]双重索引访问。len()函数查看字符串长度。extend()函数扩展列表。del关键字指定位置删除元素。Python的内置数据类型。index()函数确定索引。原创 2024-05-10 10:31:17 · 240 阅读 · 1 评论 -
Python专题:七、函数初探
def是关键词,函数定义,add3函数名(自定义)三个数相加,a,b,c是函数的形式参数,需要注意的是,在出现三个点号之后,还需再输入一个回车,出现三个尖括号,才算函数定义完成,定义完之后就可以使用了。上面两个代码区别在于,第一段中d是全局变量,第二段里是局部变量,这个里面,局部变量的优先级比全局变量的优先级高,这个就是作用域,注意变量的定义,避免重复。也可以直接让形参=实参,这样可以忽略顺序。有默认值的参数后不能出现没有默认值的参数!另外,return语句后的语句不会执行。代码的重用,重复的机械性功能。原创 2024-05-09 16:07:05 · 202 阅读 · 0 评论 -
Python专题:六、循环语句(2)
依次取出counts(列表)里的数字,并赋予给x,判断x和largest数值大小。range对象可遍历的,后面再讲,range(1,101)相当于(1,2,3,4,...,100)找出重复字符,i是字符串下标,0-D,1-o,2-n,外层循环每执行一步,内层循环都要执行许多步。for循环语句也支持else子句,也支持break关键字和continue关键字。需要注意的是,1是起始值包含在序列里,而101是结束值,则不包含在序列里。注释:变量largest,循环语句for,还有二层缩进八个空格。原创 2024-05-09 14:35:05 · 146 阅读 · 0 评论 -
Python专题:六、循环语句(1)
x原创 2024-05-09 14:16:06 · 195 阅读 · 0 评论 -
Python专题:五、条件语句
if条件语句关键词,x>5条件表达式,:条件结束,四个空格,表示一层缩进。Tab键和空格键不能混用!建议统一用四个空格缩进。条件语句可以无限嵌套,可以用于表示非常复杂的逻辑。elif语句,含义是else if。and 连接全部条件都满足时才执行。表达式的结果为非0时,满足条件。count()字符串计数。再给x=1,没有结果出来。比较表达式作为判断条件。python 解释器。原创 2024-05-09 11:22:18 · 218 阅读 · 0 评论 -
Python专题:四、字符串(2)
还可以用负数进行下标,表示从右向左,同样不能超过下标数量,否则就会报错。可以通过下标, 字符串[]引用字符,不能超过下标数量,否则就会报错。字符串可以用' '(单引号)和" "(双引号)startswith()是方法,判断字符串的开头。字符串[ : ] 截取字符串,前闭后开的区间。endswith()是方法,判断字符串的结尾。在这里,:.2f保留浮点数,小数点后两位。len()是内置函数,计算字符串长度。format()格式化字符串。count()字符串计算。join()字符串插入。原创 2024-05-09 10:28:42 · 219 阅读 · 0 评论 -
Python专题:四、字符串(1)
字符——>数字,ASCII编码,美国信息交换标准代码,当前ASCII编码包含128个字符,其中95个为可见字符,33个为不可见字符(多数已被废弃)。英文大小写字母,数字和标点符号,但是西欧字母,假名,阿拉伯字母等字符Python就无能无力了。\n 换行符 \t横向制表符 \r回车符 \\代表\ \\\\代表\\。全宇宙统一的编码——Unicode编码,Python3默认编码,可查看。编码和解码使用的编码表不一致,导致的文章内容混乱。'' (单引号) ""(双引号)''' ''' 三引号可跨行输入。原创 2024-05-08 17:11:14 · 1035 阅读 · 0 评论 -
Python专题:三、数字和运算(2)
通常true是1,false是0,但不建议这样写,没有什么意义。变量=可以计算出合法的值,就是把右边的值赋予左边的变量。将x+1赋予x,x当前值是2,2+1=3,3赋值给x。Python3中 整数/整数 整数or浮点数。4、身份运算符is,成员运算符in,位运算符。Python2中 整数/整数 值为整数。3、取模运算符%,对除法求余数的运算。1、赋值运算符=,对变量赋值的运算。简便写法,x+=1相当于x=x+1。4、求幂运算符**,求次方的运算。name error 名字未定义。//计算除法对结果取整。原创 2024-05-08 14:09:30 · 165 阅读 · 0 评论 -
Python专题:三、数字和运算(1)
Python表示法还有:二进制表示法,八进制表示法,十六进制表示法。可以通过type()来查看变量类型,变量类型和其类型一致。1、int 整数 如6,7,-1,0,42。3、complex 复数 1+1j,12j。2、float 浮点数 1.0,-2.2。十进制表示法是Python默认的表示法。先定义变量,变量名=数值,否则会报错。4、type()查看数据类型。int转换会损失小数点部分。通过赋值语句来改变数值。16进制转换10进制。原创 2024-05-08 10:48:38 · 278 阅读 · 0 评论 -
Python专题:二、Python小游戏,体验Python的魅力
希望先通过一个小的游戏让大家先对Python感兴趣,兴趣是最好的老师。原创 2024-05-07 16:40:49 · 308 阅读 · 0 评论 -
Python专题:一、安装步骤
运行出现这个即代表安装成功。2、推荐使用的sublime。Python自带编辑器。其他的全部下一步即可。原创 2024-05-07 16:30:25 · 247 阅读 · 0 评论 -
二十七、数据可视化
在Excel中进行数据可视化比较简单,直接选中要图表化的数据,然后单击插入选项卡,选择合适的图表类型就可以对图表格式进行设置。知道了要把哪些数据数据图表化以后,就需要明确目的,可视化是用来表达信息的一种方式,既然是用来表达信息的,就应该明确要表达什么,要传递给看图人哪些信息。画布是图表的最大概念,在一块画布上可以建立多个坐标系,坐标系又可以分为直角坐标系、球坐标系和极坐标系三种,其中直角坐标系最常用。明确了要表达什么信息以后,就可以选择合适的表现形式了,不同的目的使用的表现形式是不一样的。原创 2023-07-18 15:15:07 · 1229 阅读 · 0 评论 -
二十六、结果导出
在Excel中要将文件保存为.csv格式,直接将文件另存为,在另存为时有两种.csv文件可选,这两种文件虽然后缀均为.csv,但是编码方式不同,CSV UTF-8(逗号分隔)(.csv)采用的编码格式是utf-8,而csv(逗号分隔)(.csv)采用的编码格式是gbk编码。需要注意的是,如果同一导出文件已经在本地打开,则不能再次运行导出代码,会报错,需要将本地文件关闭后再次运行导出代码,这点类似于在本地修改文件名的操作,如果文件是打开的,即被占用的状态,那么不可以执行修改文件的操作。原创 2023-07-17 15:00:12 · 144 阅读 · 0 评论 -
二十五、多表拼接
这个时候要分别指定左表和右表的连接键,使用的是参数分别是left_on和right_on,left_on用来指明左表用作连接键的列名,right_on用来指明右表用作连接键的列名。索引列不算是真正的列,当公共列是索引列时,就要把索引列当作连接键,使用的参数分别是left_index和right_index和left_index用来控制左表的索引,right_index用来控制右表的索引。多对一就是待连接的两个表的公共列不是一对一的,其中一个表的公共列有重复值,另一个表的公共列是唯一的。原创 2023-07-17 10:28:36 · 140 阅读 · 0 评论 -
二十四、数据分组/数据透视表
可以按照一个或多个Series进行分组,分组以后的汇总计算也是完全一样的,也支持对分组以后的某些列进行汇总计算。由于对分组后的数据进行了计数运算,因此每一刻都会有一个结果,但是如果对分组后的结果做一些数值运算,这个时候就只有数据类型是数值(int,float)的列才会参与运算,比如下面的求和运算。数据分组就是根据一个或多个键(可以是函数、数组或df列名)将数据分成若干组,然后对分组后的数据分别进行汇总计算,并将汇总计算后的结果进行合并,被用作汇总计算的函数称为聚合函数。原创 2023-07-14 11:39:15 · 457 阅读 · 0 评论 -
二十三、时间序列
在Excel中量日期直接做差会得到一个待小数点的天数,如果只想看两日期之间差多少天,那么直接取整数部分即可:如果想看两日期之间差多少小时、分钟,则需要对小数部分进行计算,小数部分乘24得到的结果中的整数部分就是小时数,它的小数部分再乘60就是分钟数。上面的索引方法适用于索引是时间的情况下,但是并不是在所有的情况下,时间都可以做索引,因为时间也有大小关系的,所以我们可以利用前面学过的索引方式中的布尔索引来对非索引列的时间进行选取。在Python中,可以选取具体的某一时间对应的值,也可以选取某一时间内的值。原创 2023-07-12 16:28:53 · 265 阅读 · 0 评论 -
二十二、数据运算
在Excel和Python中,求最大值使用的都是max()函数,在Excel中同样只需要在max()函数中指明要求最大值的区域即可:在Python中,和其他函数一样,如果对整个表直接调用max()函数,则返回该数据表中每一列的最大值。算术运算就是基本的加减乘除,在Excel或Python中数值类型的任意两列可以直接进行加、减、乘、除运算,而且是对应元素进行加、减、乘、除运算,Excel中的运算比较简单,主要介绍Python中的算术运算。均值是用来衡量数据一般情况的指标,容易受到极大值、极小值的影响。原创 2023-07-12 10:45:30 · 87 阅读 · 0 评论 -
二十一、数值操作(二)
与cut()方法类似的还有qcut()方法,qcunt()方法不需要实现指明切分区间,只需要指明切分个数,即你要把待切分数据切成几份,然后它就会根据待切分数据的情况,将数据切分成实现指定的份数,依据的原则就是每个组里面的数据个数尽可能相等。在Python中插入一个新的列用到的方法是insert(),在insert方法后的括号中指明要插入的位置、插入后新列的列名,以及要插入的数据。在数据分布比较均匀的情况下,cut()方法得到的区间基本一致,当数据分布不均匀,即方差比较大时,两者得到的区间的偏差就会比较大。原创 2023-07-04 15:47:17 · 162 阅读 · 0 评论 -
二十、数值操作(一)
在Excel中实现按照多列排序,选中待排序的所有数据,单击编辑菜单栏下的排序和筛选按钮,在下拉菜单栏中选择自定义排序选项就有添加条件的按钮,添加条件就是添加按照排序的列,在次序里面可以单独定义每一列的升序或降序。在Python中,我们要获取一列值的唯一值,整体思路与Excel的是一致的,先把某一列的值复制粘贴出来,然后用删除重复项的方法实现,关于删除重复项在前面讲过了,本次用另一种获取唯一值的方法unique()实现。当待排名的数值有重复值时,返回重复值的平均排名。原创 2023-06-29 17:18:41 · 179 阅读 · 0 评论 -
十九、数据选择
前面我们说过,如果是普通索引,就直接传入行和列名,用loc方法即可:如果是切片索引,也就是传入行和列的位置区间,要用iloc方法。在iloc方法中的第一对方括号表示行索引的选择,传入要选择行索引的位置,第二对方括号表示列索引的选择,传入要选择列索引的位置。上面的数据选择都是针对单一的行或列进行选择,实际业务中我们用到行、列同时选择,所谓的行、列同时选择就是选择出行和列的相交部分。loc方法中的第一对方括号表示行索引的选择,传入行索引名称:loc方法中的第二对方括号表示列索引的选择,传入列索引名称。原创 2023-06-27 15:21:08 · 104 阅读 · 0 评论 -
十八、数据预处理(二)
在重新设置索引时,还可以给set_index()方法传入两个或多个列名,我们把这种一个表中用多列来做索引的方式成为层次化索引,层次化索引一般用在某一列中含有多个重复值的情况下。level参数用来指定要将层次化索引的第几级别转化为columns,第一个索引为0级,第二个索引为1级,默认为全部索引,即默认把索引全部转化为columns。在Excel中,一般都是有索引的,如果没索引数据看起来就会很乱,当然也会有例外,数据表就是没有索引的,这个时候插入一行一列就是为表添加索引。重新设置索引,一般指行索引的设置。原创 2023-06-25 16:09:11 · 775 阅读 · 0 评论 -
十七、数据预处理(一)
在Excel中,缺失值的填充和缺失值删除一样,利用的也是定位条件,先把缺失值找到,然后在第一个缺失值的单元格中输入要填充的值,最常用的就是用0填充,输入以后按Ctrl+enter 组合键就可以对所有缺失值进行填充。缺失值就是由某些原因导致部分数据为空,对于为空的这部分数据我们一般有两种处理方式,一种是删除,即把含有缺失值的数据删除,另一种是填充,即把确实的那部分数据用某个值代替。对异常值进行填充,其实就是对异常值进行替换,同样通过筛选功能吧异常值先找出来,然后把这些异常值替换成要填充的值即可。原创 2023-06-25 11:47:58 · 1021 阅读 · 0 评论 -
十六、熟悉数据
在Excel中如果想看某列的数值分布情况,那么手动选中这一列,在Excel的右下角就会显示出这一列的平均值、计数及求和,且只显示这三个指标。熟悉数据的第二点就是看一下数据类型,不同的数据类型的分析思路是不一样的,比如数值类型的数据可以求均值,但是字符串类型的数据就没法求均值了。在Excel中,若想看某一列数据具体是什么类型的,只要吧这一列选中,然后在菜单栏中的数字那一栏就可以看到这一列的数据类型。熟悉数据的第三点就是掌握数值的分布情况,即均值是多少,最值是多少,方差及分位数分别又是多少。原创 2023-06-20 14:29:17 · 1665 阅读 · 0 评论