数据分析-pandas
文章平均质量分 60
Yale曼陀罗
用数字剥开俗世的纷繁外衣~坚持做精品知识专栏的公益传播者,尊重知识积累、共享学术成果~
展开
-
Python计算均值、方差、标准差、协方差等常用指标的方法——Numpy模块+Pandas模块
可以用numpy 中的 也能求得简单平均数。此外,它也可以求出 加权平均数 。(average 里面可以跟一个 weights 参数,里面是一个权数的数组)例如:方差:典型实例:标准差:典型实例:二、利用Numpy模块计算均值、方差、标准差等对于 pandas ,也可以用里面的 mean 函数可以求得所有行或所有列的平均数,例如:若计算 某一行或某一列的平均值,则可以使用 选取该行或该列数据,后面跟 就能得到,例如:pandas 中的 可以计算 样本方差(注意不是),可以得到 样.....原创 2022-07-01 19:16:05 · 15338 阅读 · 1 评论 -
机器学习量化评价指标——敏感性、特异性、准确率、精确率
原创 2022-01-27 19:19:11 · 5570 阅读 · 0 评论 -
numpy.random.random的用法说明
numpy.random.random函数的官方文档 函数语法: numpy.random.randomrandom.random(size=None)Return random floats in the half-open interval [0.0, 1.0). Alias for random_sample to ease forward-porting to the new random API. size=(2, 10, 10, 3)表示生成2个(10, 10, 3)的复合list,原创 2022-01-04 21:03:18 · 2366 阅读 · 0 评论 -
pandas一次性删除指定多列均为空的行数据
一次性删除指定多列均为空的行数据df_last.dropna(subset=['amdlevel','focuspath','imgcoord'],inplace=True)原创 2021-08-23 18:16:13 · 2214 阅读 · 0 评论 -
DataFrame的某列&多列使用lambda正则表达式赋值
# 新增列columns_screencodedata_s['columns_screencode'] = data_s['筛查编号'].map(lambda x:list(json.loads(x).keys())) #新增一列'columns'用于存储每一列的json串的字段名找出list中指定元素的所有索引a=[72, 56, 76, 84, 80, 88, 76]list(enumerate(a))[i for i, x in enumerate(a) if x==76] # 利用e原创 2021-08-05 16:20:12 · 12169 阅读 · 0 评论 -
os.walk一次性读取根目录文件夹下多个子文件夹中文件
import os,reinput_dir = r'/Users/zld/Documents/文件夹路径/'file_list = []for root,dirs,files in os.walk(input_dir):# print(files) for name in files: if name.endswith('.DS_Store') or name.endswith('.rar'): pass else:原创 2021-01-07 14:44:39 · 742 阅读 · 0 评论 -
获取Python中任一模块源代码的方法
1、Python查看指定模块的所有方法,通过代码dir(模块名)来实现。例如:import pyecharts # 现导入要查看的模块print(dir(pyecharts)) # dir(模块名)得到该模块的所有方法>>>['__author__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__sp原创 2020-11-09 11:11:56 · 955 阅读 · 1 评论 -
Python中next()函数、iter()以及next(iter())函数的用法详解
描述:next() 返回迭代器的下一个项目。next() 函数要和生成迭代器的iter() 函数一起使用。 语法:next 语法:next(iterable[, default]) 参数说明:iterable – 可迭代对象default – 可选,用于设置在没有下一个元素时返回该默认值,如果不设置,又没有下一个元素则会触发 StopIteration 异常。 备注:list、tuple等都是可迭代对象,我们可以通过iter()函数获取这些可迭代对象的迭代器。然后,我们可以对获.原创 2020-10-27 17:20:28 · 34520 阅读 · 2 评论 -
Python将str转为int型或float型
Python将str转为int型或float型string转化为int型int转化为string型string转化为float型float转化为string型含小数点的string分割为整数部分和小数部分string转化为int型string转化为int型 ——10进制:int('4')>>>4string转化为int型——16进制:int('0x12', 16) # 10进制数字18,用16进制表示为'0x12'# 或者int('12', 16)>原创 2020-08-13 19:34:42 · 44023 阅读 · 0 评论 -
Python中使用plt.ion()和plt.ioff()画动态图
因为python可视化库matplotlib的显示模式默认为阻塞(block)模式(即:在plt.show()之后,程序会暂停到那儿,并不会继续执行下去)。如何 展示动态图或多个窗口 呢?使用plt.ion()这个函数,使matplotlib的显示模式转换为交互(interactive)模式。即使在脚本中遇到plt.show(),代码还是会继续执行。import matplotlib.pyplot as plt plt.ion() # 打开交互模式 # 同时打开两个窗口显示图片原创 2020-06-29 11:09:33 · 25759 阅读 · 4 评论 -
Python中两个list取交集、并集、差集以及为字符串str添加、插入特定字符的操作总结
Python中两个list取交集、并集、差集以及为字符串str添加、插入特定字符的操作总结Python中两个list取交集、并集、差集为字符串str添加、插入特定字符的操作总结Python中两个list取交集、并集、差集list(set(list_a).intersection(set(list_b))) :获取两个list的交集list(set(list_a).union(set(list_b))) : 获取两个list的并集list(set(list_a).difference(set(lis原创 2020-06-24 11:26:52 · 3287 阅读 · 0 评论 -
Python一次性删除list中的一个或多个相同元素
Python一次性删除list中的一个或多个相同元素一次性删除list中某个单一元素一次性删除list中多个相同元素一次性删除list中某个单一元素Python删除list中某个单一元素有三种常用方法:list.pop(index):删除列表list中 位置索引为index处的值 ,并且返回这个值;备注:(1)list.pop(index) 接收的是索引index;(2)list.pop()在无参的情况下删除的是最后一个元素(典型的栈的特性);(3)list.pop(index)存在返回原创 2020-06-17 10:22:54 · 36506 阅读 · 1 评论 -
Python如何获取list中指定元素的位置索引
list_a.index('xx')——在列表list_a中找到第一个匹配的值’xx’;[i for i,x in enumerate(list_a) if x=='xx']——在列表list_a中找到所有匹配的值’xx’;enumerate()是将list(当然,也包含其它类型)中的元素元组化,然后我们利用循环方法获取相应的匹配的结果。所以方案二对于重复的数值能够一个不漏的get出来。label_list = ['id15', 'id26', 'id15', 'id26', 'id26'][i.原创 2020-06-16 17:00:28 · 14305 阅读 · 0 评论 -
使用os.mkdir()创建目录报错:FileNotFoundError: No such file or directory
os.mkdir()报错解决:FileNotFoundError: No such file or directoryimport osimport loggingdir_checkpoint = 'checkpoint/train/20200313/'os.mkdir(dir_checkpoint)>>>FileNotFoundError: [Errno 2] No such file or directory: 'checkpoint/train/20200313/'原创 2020-05-22 09:46:46 · 2281 阅读 · 0 评论 -
Python判断DataFrame中某一项的值是否为空的方法
预期需求:使用循环语句,将DataFrame中 A列 不为空的各行值分别赋值到 B列 的对应行单元中。 问题提出:需要逐项判断DataFrame中某一项的值是否为空。解决方案:判断DataFrame中某一项的值是否为空的方法有两种:可以通过np.nan 来比较判断,语法格式:df['column_name'][i] is not np.na可以通过pd.isnull()来判断,语...原创 2020-03-23 19:37:52 · 20654 阅读 · 3 评论 -
python在使用df.to_excel()导出文件时报错:IllegalCharacterError 的解决方案
@[toc](python在使用df.to_excel()导出文件时报错:IllegalCharacterError 的解决方案)问题描述:在使用pandas写excel的时候,可能会出现 “IllegalCharacterError” 的错误提示 。原因探究:查了很多技术贴说是欲导出的excel文件中,存在非法字符造成的。解决方案: 使用xlsxwriter模块,添加指定参数,自动去除...原创 2020-02-26 12:32:18 · 11483 阅读 · 6 评论 -
pandas.DataFrame删除含有指定字符串的行或列
1.删除/选取某列含有特殊数值的行1.删除/选取某列含有特殊数值的行2.删除/选取某行含有特殊数值的列1.删除/选取某列含有特殊数值的行利用 df[~df['column_name'].isin(["strings"])] 删除df表中包含指定字符串”strings“的行数据#通过.isin(),选取包含指定字符串"boy"的行df1=df1[~df1['A'].isin(["boy"])...原创 2020-02-24 17:12:39 · 28302 阅读 · 2 评论 -
TypeError: object of type 'NoneType' has no replace()的解决方法
问题描述: 对DataFrame的某一列进行多个指定字符的统一替换,使用.replace()方法时,遇到某项为Null时,报错:TypeError: object of type ‘NoneType’ has no replace()。举个栗子:DataFrame的部分数据如图,现需将left列和right列中的所有“糖网”替换为“1”,“BDR”替换为“1”,“PDR”替换为“2”,“几期”...原创 2020-01-10 11:11:32 · 4228 阅读 · 0 评论 -
python实现多列合并为一列的方法总结
方法一:方法:df['column'] = df['column_A'] + df['column_B']缺点:某一列如果为空,另一列不为空,则合并结果是为空,所以在合并之前需要对NA进行预处理,替换或者删除。注意:如果某一列是非str类型的数据,那么我们需要用到map(str)将那一列数据类型做转换:df["newColumn"] = df["trans_cd"].map(str) + d...原创 2019-12-23 17:19:40 · 23398 阅读 · 0 评论 -
Pandas拼接操作(concat,merge,join和append)的区别
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2019-05-22 12:37:45 · 26490 阅读 · 12 评论 -
GitHub入门使用指南
github入门使用指南github Desktop使用操作指南github Desktop使用操作指南点击"Commit to master"只是让Github客户端记录这次进行的改动,相当于一次游戏存档,在将来的某一天如果想重玩这个存档,可以点击上面的圆圈“读取存档”,让项目恢复到这次记录的状态。...原创 2019-05-22 17:43:46 · 432 阅读 · 0 评论 -
Jupyter Notebook常用快捷键详解
Jupyter Notebook常用快捷键详解快捷键作用备注Enter转入编辑模式Up选中上方单元K选中上方单元Down选中下方单元J选中下方单元Shift-K连续选择上方单元Shift-J连续选择下方单元A在上方插入新单元B在下方插入新单元X剪切选中的单元C原创 2019-06-05 14:31:24 · 782 阅读 · 0 评论 -
python 常用操作集锦
python 常用操作集锦1 pandas常用操作语句1.1 全部读取数据1.2 局部读取数据1.3 设置行、列索引1.n 导出数据1 pandas常用操作语句1.1 全部读取数据读取.xlsx格式数据语法格式:pda.read_excel('filename',sheetname=k,header=None,encoding=utf-8)参数说明:sheetname=k:表...原创 2019-06-05 14:31:55 · 1076 阅读 · 0 评论 -
Pandas处理日期数据的常见操作集锦
Pandas处理日期数据的常见操作集锦数据读取及整理1.1 Series的创建方法数据读取及整理将数据类型转换为日期类型 df['date'] = pd.to_datetime(df['date'])将date设置为index df = df.set_index('date')获取某年的数据 print(df['2010'].head())获取某月的数据 p...原创 2019-06-05 14:32:45 · 21826 阅读 · 1 评论 -
Python 正则表达式学习总结
Python 正则表达式学习总结1 正则表达式基础知识点1.1 正则表达式的概念2 正则表达式常用函数:2.1 compile 函数详解1 正则表达式基础知识点1.1 正则表达式的概念正则表达式:通常被用来检索、替换那些符合某个模式(规则)的文本。2 正则表达式常用函数:2.1 compile 函数详解compile 函数:根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对...原创 2019-06-05 14:34:15 · 608 阅读 · 0 评论 -
pandas中.loc和.iloc以及.at和.iat的区别
pandas中.loc和.iloc以及.at和.iat的区别显示索引和隐式索引显示索引和隐式索引import pandas as pddf = pd.DataFrame({‘姓名’:[‘张三’,‘李四’,‘王五’],‘成绩’:[85,59,76]})#传入冒号‘:’,表示所有行或者列#显示索引:loc,第一个参数为index切片,第二个为columnsdf.loc[2] #index为...原创 2019-06-05 14:35:08 · 29111 阅读 · 0 评论 -
groupby函数详解
pandas中groupby函数用法详解1 groupby()核心用法2 groupby()语法格式3 groupby()参数说明4 groupby()典型范例1 groupby()核心用法(1)根据DataFrame本身的某一列或多列内容进行分组聚合,(a)若按某一列聚合,则新DataFrame将根据某一列的内容分为不同的维度进行拆解,同时将同一维度的再进行聚合,(b)若按某多列聚合,则新D...原创 2019-06-06 13:40:19 · 129954 阅读 · 17 评论 -
pandas批量读入Excel、CSV类型文件
pandas批量读入Excel、csv类型文件pandas批量读入Excel文件pandas批量读入Excel文件Step1:导入模块import pandas as pdimport osStep 2:指定存放文件的地址dir_str=r'D:\000-mine\richang2019\促首充\原始数据集\0613' #指定存放文件的地址Step 3:获取指定文件夹下所有Ex...原创 2019-07-29 09:42:13 · 2825 阅读 · 3 评论 -
def __init__(self)和def __init__(self, 参数1,参数2,···,参数n)的用法详解
def init(self)形式这种形式在__init__方法中,只有一个self,指的是实例本身,包含两个属性,name, score。它允许定义一个空的结构,当新数据来时,可以直接添加。实例化时,需要实例化之后,再进行赋值。class Game:# 定义Game类 def __init__(self): #创建类中的函数,也叫方法 self.name=None ...原创 2019-07-30 12:41:14 · 19148 阅读 · 3 评论 -
独热编码One-Hot-Encoding与哑编码dummies、factorize的区别、联系
One-Hot-Encoding与dummies、factorize的区别、联系独热(onehot)编码基本知识点Pandas中dummies、factorize的用法详解pd.factorize()与哑变量变换pd.get_dummies()相较的优势get_dummies()与factorize()的区别pd.get_dummies()的用法详解pd.factorize()的用法详解sklea...原创 2019-08-08 09:00:50 · 2389 阅读 · 0 评论 -
Numpy常见操作汇总
Numpy常见操作汇总Numpy.random中shuffle与permutation的区别Numpy.random中shuffle与permutation的区别函数shuffle与permutation都是对原来的数组进行重新洗牌(即随机打乱原来的元素顺序);区别在于shuffle直接在原来的数组上进行操作,改变原来数组的顺序,无返回值。而permutation不直接在原来的数组上进行操作,...原创 2019-08-09 12:54:06 · 197 阅读 · 0 评论 -
实战项目一:地铁人流量预测
项目简介地铁人流量预测项目背景项目宗旨项目简介01数据清洗;02特征提取;03数据初步分析;04数据深度分析05数据模型的创建;06数据模型的评估07模型的优化改进08引入复杂模型——XGBoost地铁人流量预测项目背景为了帮助纽约市的地铁运输管理局(MTA)省钱并使地铁更安全;为了更准确地预测每日将有多少人访问某些地铁站点,从而让MTA更好地分配员工并预测否则会出乎意料的高峰期。项...原创 2019-08-20 12:54:12 · 20172 阅读 · 40 评论 -
高斯分布基本概念及Python生成高斯分布数据集
高斯分布基本概念及Python生成高斯分布数据集正态分布的基本概念利用python随机产生多维高斯分布点正态分布的基本概念正态分布,又称高斯分布。其特征为:中间高、两边低,左、右对称。其主要性质如下:集中性:曲线的最高峰位于正中央,且位置为均数所在的位置。对称性:正态分布曲线以均数所在的位置为中心、左右对称,且曲线两端无线趋近于横轴。均匀变动性:正态分布曲线以均数所在的位置为中心均匀向...原创 2019-08-20 12:55:49 · 14332 阅读 · 1 评论 -
pandas中eval函数详解
pandas中eval函数详解eval函数的常见用法将字符串对象转换为具体对象1 将字符串列表转换为列表2 将字符串元组转换为元组3 将字符串字典转换为字典pandas.DataFrame.eval函数详解eval函数的常见用法将字符串对象转换为具体对象1 将字符串列表转换为列表a='[[1,2],[3,4],[5,6]]'b=eval(a)2 将字符串元组转换为元组a=’([1,...原创 2019-08-20 12:59:11 · 9041 阅读 · 0 评论 -
Pandas常用函数及操作集锦
Pandas常用函数及操作集锦1 创建Series和DataFrame的方法1.1 Series的创建方法1.2 DataFrame的创建方法1.2.1 字典类型读取到DataFrame(dict to DataFrame)1.2.2 利用np.arange()与np.random. 模块生成DataFrame1.2.3. 读入csv文件构建DataFrame(csv to DataFrame)...原创 2019-08-23 15:22:51 · 7190 阅读 · 0 评论 -
将DataFrame的几列数据合并成为一列
DataFrame的几列数据合并成为一列DataFrame的几列数据合并成为一列1.1 方法归纳1.2 .str.cat函数详解1.2.1 语法格式:1.2.2 参数说明:1.2.3 核心功能:1.2.4 常见范例:DataFrame的几列数据合并成为一列1.1 方法归纳使用 + 直接将多列合并为一列(合并列较少);使用pandas.Series.str.cat方法,将多列合并为一列(合...原创 2019-05-05 17:38:37 · 18591 阅读 · 3 评论