python
jialun0116
浙江工业大学
展开
-
数据分析中NumPy 基础用法
NumPy 基础用法为什么要用NumPy创建数组结构数组连续数组的创建算数运算计数组 / 矩阵中的最大值函数 amax(),最小值函数 amin()统计最大值与最小值之差 ptp()统计数组的百分位数 percentile()统计数组中的中位数 median()、平均数 mean()统计数组中的加权平均值 average()统计数组中的标准差 std()、方差 var()NumPy 排序为什么要用NumPy这是因为列表 list 的元素在系统内存中是分散存储的,列表中 list 保存的是对象的指针,如原创 2020-11-10 18:26:36 · 377 阅读 · 0 评论 -
numpy中std()和pandas中std()的区别
numpy中std和pandas中std的区别偏差 (deviation): 样本中各数据比平均值大多少或小多少方差 (deviation): 将偏差进行平方再取平均标准差(standard deviation):标准差也即偏差的均方根值。也就是所有数减去平均值,它的平方和除以数的个数(或个数减一),再把所得值开根号,就是1/2次方,得到的数就是这组数的标准差。计算得出的默认标准偏差类型在 numpy 的 .std() 和 pandas 的 .std() 函数之间是不同的原创 2020-10-29 14:31:14 · 807 阅读 · 0 评论 -
Pandas之透视表pivot_table
Pandas之透视表pivot_table1. 什么是pivot_table2. 如何操作pivot_table2.1 加载数据2.2 index参数2.3 values参数2.4 columns参数2.5 aggfunc参数2.6 查询3. 总结1. 什么是pivot_table透视表是一种可以对数据动态排布并且分类汇总的表格格式 pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=原创 2020-10-21 00:04:56 · 1841 阅读 · 1 评论 -
用spark中DataFrame对数据进行去重、缺失值处理、异常值处理
用spark中DataFrame对数据进行清洗1. 准备工作2. 数据去重3. 缺失值处理4. 异常值处理1. 准备工作配置环境import osfrom pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSessionimport pyspark.sql.functions as fnJAVA_HOME = '/root/bigdata/jdk'PYSPARK_PYTHON = "/miniconda2/e原创 2020-10-20 14:53:07 · 9745 阅读 · 3 评论 -
python中map、zip、dict的用法
python中map、zip、dict的用法map() 会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。map(lambda x: x ** 2, [1, 2, 3, 4, 5]) # 使用 lambda 匿名函数 [1, 4, 9, 16, 25]zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。a原创 2020-10-16 14:23:52 · 833 阅读 · 0 评论 -
Python函数之iterrows(), iteritems(), itertuples()区别
Python函数之iterrows, iteritems, itertuples对dataframe进行遍历iterrows(): 将DataFrame迭代为(insex, Series)对。iteritems(): 将DataFrame迭代为(列名, Series)对itertuples(): 将DataFrame迭代为元祖。iterrows(): 将DataFrame迭代为(insex, Series)对。iteritems(): 将DataFrame迭代为(列名, Series)对itertup转载 2020-10-10 10:32:24 · 4376 阅读 · 0 评论 -
python画图之Matplotlib
python画图之Matplotlib定义主要用于开发2D图标数据分析 基于分析 进行展示绘制流程绘制画布 plt.figure()绘制图像 plt.plot(x,y,label= ,color=,linestyle=)显示图像 plt.show()matplotlib三层结构容器层canvasfigureaxes辅助显示层添加x轴、y轴描述图像层绘制什么图像的申明保存图像plt.savefig(路径)plt.show() 会释放原创 2020-09-01 15:37:57 · 254 阅读 · 0 评论 -
python中copy和deepcopy详细区别
python中copy和deepcopycopy仅拷贝对象本身,不会对其中的子对象进行拷贝,对子对象进行修改也会随着修改deepcopy是真正意义上的复制,新开辟一块空间。copy 对于不可变类型(元组等)为浅拷贝,对于可变类型(列表等)为深拷贝a = [1,2,3,[4,5],1]b = ac = copy.copy(a)d = copy.deepcopy(a)a.append(9)a[3].append(6)print(a) #[1, 2, 3, [4, 5, 6], 1原创 2020-08-31 09:05:44 · 4213 阅读 · 0 评论 -
流畅的python之第二部分数据结构总结
流畅的python之第二部分数据结构总结容器序列list、tuple、collections.deque可存放不同类型数据存放的是对象的引用扁平序列str、bytes只能容纳一种类型存放的是值,实际上扁平序列是一段连续的内存空间可变序列list、collections.deque不可变序列tuple、str、bytes列表推导[ord(x) for x in str_a]随机生成16位密码 passd = [chr(np.random.ra原创 2020-08-30 15:37:12 · 270 阅读 · 0 评论 -
Pandas操作总结
Pandas小结具体操作详见:链接pandas概念开源的数据挖掘库 用于数据探索封装matplotlib,numpy创建DataFrame,修改index和columnspd.DataFrame(ndarry,index= ,columns= )创建日期pd.date_range()start – 开始日期end – 结束日期periods – 时间跨度 与end选其一即可freq – 统计时间方式行索引,叫index,axis=0列索引,原创 2020-08-29 22:07:51 · 342 阅读 · 0 评论 -
用python构建一副扑克牌
python构建一副扑克牌原创 2020-08-26 22:40:07 · 599 阅读 · 0 评论 -
python中__repr__与__str__区别
__repr__与__str__区别__repr__和__str__的区别在于,后者是在str()函数被使用,或是在用print函数打印一个对象的时候才被调用的,并且它返回的字符串对终端用户更友好。如果你只想实现这两个特殊方法中的一个,__repr__是更好的选择,因为如果一个对象没有__str__ 函数, 而Python又需要调用它的时候,解释器会用__repr__ 作为 替代。原创 2020-08-26 22:25:11 · 131 阅读 · 0 评论 -
Numpy操作总结
Numpy小结具体操作详见:链接Numpy定义开源的Python科学计算库,用于快速处理任意维度的数组Numpy中,存储对象是ndarray创建np.array([])numpy的优势内存块风格一体式存储支持并行化运算效率高于纯Python代码底层使用了C,内部释放了GIL(全局解释器)ndarray的属性名字 属性解释ndarray.shape 数组维度的元组ndarray.ndim 数组维数ndarray.size 数组中的元素数量原创 2020-08-25 23:39:49 · 282 阅读 · 0 评论 -
Python的“内存管理机制”
Python的“内存管理机制”什么是内存管理器(what)Python内存池为什么要引入内存池(why)内存池是如何工作的(how)垃圾回收机制引用计数标记-清除分代回收思考总结什么是内存管理器(what)Python作为一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言,与大多数编程语言不同,Python中的变量无需事先申明,变量无需指定类型,程序员无需关心内存管理,Python解释器给你自动回收。开发人员不用过多的关心内存管理机制,这一切全部由python内存管理器承担了复杂的内存管理工作转载 2020-07-29 10:09:57 · 630 阅读 · 0 评论 -
用python处理excel和word并生成工作报告
用python生成工作报告python处理excelpython绘制柱状图python处理word把execl中的数据整理写入word(小实验)实验结果原创 2020-07-14 23:31:29 · 1937 阅读 · 1 评论 -
python面试题 更新中
python面试题 日常更新1.设置Python模块的搜索路径有几种方式1.设置Python模块的搜索路径有几种方式设置PYTHONPATH环境变量添加. pth文件 在python的安装路径下的/lib/python版本号/site-package/ 下创建 XXX.pth ,打开XXX.pth添加需要导入的路径通过sys . path设置路径 如果使用PyCharm,可以直接设置搜索路径永久设置Python模块搜索路径: PYTHONPATH、.pth文件和PyCharm临时设置Pyt原创 2020-07-14 19:24:40 · 198 阅读 · 0 评论