Python
向日葵
秋水共长天一色
落霞与孤鹜齐飞
展开
-
pyspark入门学习:创建DataFrame、增、删、改等
pyspark入门学习demopyspark创建Dataframe增、删、改等相关语法最近数据机太大,用pandas处理耗时太久,于是用学习pyspark处理数据。pyspark创建Dataframefrom pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as fnfrom pyspark.sql import Windowfrom pyspark.sq原创 2020-12-31 16:14:57 · 597 阅读 · 0 评论 -
pandas两列转换成字典的健和值
文章目录两列转换成字典的key和value列名变成字典的key两列转换成字典的key和valuedf:nameageMary26Sellina28Zaca27想将name这列变成字典的健,年龄对应成字典的值,健值对应如下:{‘Mary’:26,‘Sellina’:28,‘Zaca’:27}import pandas as pdimport pandas as pda = ['Mary','Sellina','Zaca']b = [26,28,27]原创 2020-08-06 16:39:33 · 12747 阅读 · 2 评论 -
类别不平衡:python代码实现上采样、下采样以及上采样结合
分类问题中,经常会碰到类别极度不平衡的情况,这个时候可对样本进行上下采样,让训练数据集的类别接近平衡即可。数据格式是一个dataframe,数据分为两类:多数类别和少数类别,数据量相差大。一般而言一个数据集中负样本数量远远大于正样本,故数据预处理已将多数类别的Label标记为0,少数类别的Label标记为1。以下分别是python实现采样代码:一.下采样下采样则是从多数量的类别中随机抽取样本(抽取的样本数量与少数类别样本量一致)从而减少多数量的类别样本数据,使数据达到平衡的方式。impor原创 2020-07-13 15:12:10 · 10029 阅读 · 2 评论 -
pandas datetime 和 timedelta的处理
from datetime import datetime, timedeltaimport pandas as pddata gaid client_time max_time diff0 b 2020-05-20 19:54:32 2020-05-20 19:54:32 00:00:001 b 2020-05-20 19:54:32 2020-05-20 19:54:32 00:00:002 b 2020-.原创 2020-06-09 19:31:08 · 1160 阅读 · 0 评论 -
python 字典映射
d#将gaid列映射成其他字符串user_dict = {'bf40b62d-2fc2-4f18-b11d-564731a2f0e9':'a', '257d0b02-3463-4ba9-bf8e-9a62e31badee':'b', 'e6876b4a-a575-4661-bb3f-ce4a53f49306':'c'}data['gaid'] = data['gaid'].map(user_dict)...原创 2020-06-09 18:56:46 · 591 阅读 · 0 评论 -
python 字典和dataframe之间的转换
1.将字典格式转化成dataframe:temp = {'user_id':['a','b','c','d'], 'age':[23,34,18,20], 'sex':['f','m','m','f'], 'click':[1,0,0,1]}df = pd.DataFrame.from_dict(temp)#此处默认orient=columns,将字典的key转换成dataframe的列名print(df) user_id age sex...原创 2020-06-09 11:44:04 · 12634 阅读 · 1 评论 -
pandas:数据类型的转换方法
最近在做数据预处理的时候,发现有些细微地方需要注意,当某列数据为object类型时,不能通过字符类型和整数类型的过滤方法,可以先转换一下数据类型。首先,先看数据字段的类型用test.info()再看看数据前5行接下来我想对列hh拆分成具体的小时、分钟、秒(三列),代码编写如下:test['hh'].str.split(':',expand=True)将这拆分的三列...原创 2020-03-10 16:18:59 · 1306 阅读 · 0 评论 -
pandas:将多个dataframe 写入一个表格的多个sheet里
最近有个dataframe数据太大不能保存在一个excel里,于是想办法将dataframe切片放入一个excel中的多个sheet中data.shape#(5588754,10) data.to_excel(path) 报错说最大的行没有这样大,于是想法把data切片保存#将data切片6部分df = []for i in range(6): df.append(dat...原创 2020-03-10 11:50:48 · 5006 阅读 · 0 评论 -
pandas:数据清洗之数据预处理(学习笔记)
数据清洗一般有以下四个部分:1.重复值处理;2.缺失值处理;3.异常值处理;4.数据离散化处理一.重复值处理:一般重复值采取删除,特殊情况例外,具体根据业务数据决定1 df[df.duplicated()]#整个数据集中完全重复的2 df[df.duplicate()==False]#除去完全重复的3 np.sum(df.duplicated()) #统计重复的数量4 df.dro...原创 2020-02-12 21:08:10 · 796 阅读 · 0 评论 -
python pandas遍历每行并累加进行条件过滤
本次记录主要实现对每行进行排序,并保留前80%以前的偏好。思路:将每行的概率进行排序,然后累加,累加值小于等于0.8的偏好保留,获得一个累加过滤的dataframe,然后映射回原始数据中,保留每行的偏好。接下来是代码的实现a = [[0.2, 0.35, 0.45], [0.1,0.2, 0.7], [0.3, 0.5, 0.2]]data = pd.DataFrame(a, ind...原创 2020-01-20 18:32:21 · 7176 阅读 · 0 评论 -
python pandas将某列的多字段的一行转换成多行
python 代码实现如下import pandas as pda = [['01', 'a,b,c', 5], ['02','a,b', 10], ['03', 'b,c', 20]]data = pd.DataFrame(a, index=['user1','user2','user3'], columns=["id", "type", "num"])print(data)...原创 2020-01-20 12:02:16 · 4141 阅读 · 0 评论 -
pandas DataFrame 转置、频数转概率归一化、删除某列(行)或某几列(行)
1.pandas 如何实现转置import pandas as pdx = [[1,2,3],[4,5,6],[7,8,9]]data = pd.DataFrame(x,index=['user1','user2','user3'],columns=['a','b','c'])将data进行转置data.T等价于data.unstack(0).unsatc...原创 2020-01-10 16:45:23 · 1279 阅读 · 0 评论 -
Python绘图和可视化:Matplotlib
最近在用python进行数据处理相关工作,这块主要分享一点绘图和可视化的简单东西,也是做个小笔记让自己更熟悉地运用python。1.折线图import pandas as pd import matplotlib.pyplot as pltpath = "E:\\dataset.xlsx"data = pd.read_excel(path,sheet_name="up20", en...原创 2019-12-30 17:50:48 · 420 阅读 · 0 评论