数据分析与挖掘
文章平均质量分 94
数据分析与挖掘
sosososoon
这个作者很懒,什么都没留下…
展开
-
Pandas学习——综合练习
显卡日志下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构:Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练状态或推断状态,#3#表示耗时,#4#表示精度,其中包含了float, half, double三种类型,下面是一个具体的例子:Benchmarking Inference float p原创 2021-01-13 23:10:16 · 1928 阅读 · 0 评论 -
Pandas学习——时序数据
1. 时序中的基本对象时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以从多个时间对象的角度来描述。例如 2020 年 9 月 7 日周一早上 8 点整需要到教室上课,这个课会在当天早上 10 点结束,其中包含了哪些时间概念?第一,会出现**时间戳(Date times)**的概念,即’2020-9-7 08:00:00’和’2020-9-7 10:00:00’这两个时间点分别代表了上课和下课的时刻,在 pandas 中称为 Timestamp。同时,一系列的时间戳可以组成 Da.原创 2021-01-10 22:52:45 · 2959 阅读 · 0 评论 -
Pandas学习——分类数据
cat对象cat对象的属性在 pandas 中提供了 category 类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用 astype 方法。df = pd.read_csv('G:/代码/joyful-pandas-master/data/learn_pandas.csv',usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'])df.head() Grade.原创 2021-01-07 21:46:55 · 2477 阅读 · 0 评论 -
Pandas学习——文本数据
str对象str对象的设计意图str 对象是定义在 Index 或 Series 上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其 str 对象。在Python标准库中也有 str 模块,为了使用上的便利,有许多函数的用法 pandas 照搬了它的设计,例如字母转为大写的操作:var = 'abcd'str.upper(var) # Python内置str模块'ABCD's = pd.Series(['abcd', 'efg', 'hi.原创 2021-01-06 20:14:23 · 1973 阅读 · 0 评论 -
Pandas学习——处理缺失数据
缺失值的统计和删除缺失信息的统计缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,结合 mean 可以计算出每列缺失值的比例:df = pd.read_csv('G:/代码/joyful-pandas-master/data/learn_pandas.csv',usecols = ['Grade', 'Name', 'Gender', 'Height','Weight', 'Transfer'])df.isna().head()原创 2021-01-03 23:45:24 · 3204 阅读 · 0 评论 -
Pandas学习——综合练习
import pandas as pd import numpy as np 任务一:企业收入的多样性一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:I=−∑ip(xi)log(p(xi))\rm I=-\sum_{i}p(x_i)\log(p(x_i))I=−i∑p(xi)log(p(xi))其中p(xi)\rm p(x_i)p(xi)是企业该年某产业收入额占该年所有产业总收入的比重。在 company.csv 中存有需要计算的企业和年份,在 company_data.原创 2021-01-01 23:08:29 · 2316 阅读 · 2 评论 -
Pandas学习——连接
关系型连接(横向连接)连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照 姓名 和 班级 连接成总的成绩表,又例如对企业员工的各类信息表按照 员工ID号 进行连接汇总。由此可以看出,在关系型连接中, 键是十分重要的,往往用 on 参数表示。另一个重要的要素是连接的形式。在 pandas 中的关系型连接函数 merge 和 join 中提供了 how 参数来代表连接形式,分为左连接 left 、右连接 right 、内连接 inner 、外连接.原创 2020-12-29 21:33:12 · 2735 阅读 · 0 评论 -
Pandas学习——变形
长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:# 长表pd.DataFrame({'Gender':['F','F','M','M'],'Height':[163, 160, 175, 180]}) Gender Height原创 2020-12-27 23:53:02 · 2105 阅读 · 0 评论 -
Pandas学习——分组
分组模式及其对象分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据性别分组,统计全国人口寿命的平均值依据季节分组,对每一个季节的温度进行组内标准化依据班级分组,筛选出组内数学分数的平均值超过80分的班级从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:分组依据 、 数据来源 、 操作及其返回结果。同时从充分性的角度来说,如果明确了这三方面,就能确定一个分组操作,从而分组代码的一般模式即:df.groupby(分组依据)[数据来源].使用操作df = p原创 2020-12-25 22:12:16 · 2492 阅读 · 0 评论 -
Pandas学习——索引
索引器DataFrame 的列索引列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series ,例如从表中取出姓名一列:df = pd.read_csv('G:\代码\joyful-pandas-master\data\learn_pandas.csv',usecols = ['School', 'Grade', 'Name', 'Gender','Weight', 'Transfer'])df['Name'].head()原创 2020-12-22 19:01:11 · 2604 阅读 · 0 评论 -
Pandas学习——Pandas基础
文件的读取和写入文件读取df_csv = pd.read_csv('G:\代码\joyful-pandas-master\data\my_csv.csv') # 可以写相对路径也可以写绝对路径df_csv col1 col2 col3 col4 col5 0 2 a 1.4 apple 2020/1/1原创 2020-12-19 23:52:14 · 2400 阅读 · 1 评论 -
Pandas学习——预备知识
调用库函数import numpy as npPython基础列表推导式与条件赋值L = []def my_f(x): return 2*xfor i in range(5): L.append(my_f(i)) L [0, 2, 4, 6, 8]利用列表推导式对上面的写法进行简化:[my_f(i) for i in range(5)][0, 2, 4, 6, 8]列表表达式还支持多层嵌套,如下面的例子中,第一个 for 为外层循环,第二个 fo原创 2020-12-16 14:48:40 · 2164 阅读 · 1 评论 -
零基础入门金融风控之贷款违约预测—模型融合
模型融合模型融合的方式:平均简单平均法加权平均法投票简单投票法加权投票法综合排序融合log 融合stacking构建多层模型,并利用预测结果再拟合预测。blending选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting / baggingstacking\blendingstacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。首先直接用所有的训练数据对第一层多个模型进行 K 折交叉验原创 2020-09-27 22:24:17 · 1065 阅读 · 0 评论 -
零基础入门金融风控之贷款违约预测—建模与调参
基本模型逻辑回归逻辑回归是一个假设样本服从伯努利分布 (f(x∣p)=px(1−p)n−xf(x|p) = p^x(1-p)^{n-x}f(x∣p)=px(1−p)n−x),利用极大似然估计和梯度下降求解的二分类模型。逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一个 sigmoid 函数,即先把特征线性求和,然后使用非线性的函数将连续值映射到 0 与 1 之间。 优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关简单易理解,模型的可解释性非常好,从特征的权重可原创 2020-09-24 23:28:49 · 1585 阅读 · 3 评论 -
零基础入门金融风控之贷款违约预测—特征工程
初始化import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdmfrom sklearn.preprocessing import LabelEncoderfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_sel原创 2020-09-21 23:00:54 · 1312 阅读 · 0 评论 -
A城市巡游车与网约车运营特征对比分析—地图及订单数据统计
初始化import pandas as pdimport numpy as npimport matplotlib.pyplot as plt import folium # 文件目录,绝对路径INPUT_PATH = 'G:\DCIC\Data\\'# 文件读取行数MAX_ROWS = 100000 地图数据统计:taxigps2019 = pd.read_csv(INPUT_PATH + 'taxiGps20190531.csv',原创 2020-09-20 15:23:39 · 1629 阅读 · 4 评论 -
A城市巡游车与网约车运营特征对比分析—数据可视化
初始化import pandas as pdimport numpy as npimport matplotlib.pyplot as plt import folium # 文件目录,绝对路径INPUT_PATH = 'G:\DCIC\Data\\'# 文件读取行数MAX_ROWS = 100000 读取数据# 巡游车 GPS 数据taxigps2019 = pd.read_csv(INPUT_PATH + 'taxiGps20190531.csv',原创 2020-09-20 14:25:01 · 1020 阅读 · 0 评论 -
零基础入门金融风控之贷款违约预测—数据分析
主要目标了解数据集的一些基本情况,如缺失值,异常值,数据集大小,原始特征维度等了解变量间的相互关系、变量与预测值之间存在的关系观察变量的分布情况,为特征工程做准备原创 2020-09-18 23:52:13 · 2049 阅读 · 0 评论 -
零基础入门金融风控之贷款违约预测—赛题理解
赛题数据赛题数据来自某信贷平台的贷款记录,总数据量超过 120 万条,包含 47 列变量信息,其中 15 列为匿名变量。从中抽取 80 万条作为训练集,20 万条作为测试集A,20 万条作为测试集B,同时会对 employmentTitle、purpose、postCode 和 title 等信息进行脱敏。字段表:字段名描述id为贷款清单分配的唯一信用证标识loanAmnt贷款金额term贷款期限(year)interestRate贷款利率insta原创 2020-09-14 16:27:14 · 2710 阅读 · 0 评论 -
A城市巡游车与网约车运营特征对比分析—数据读取及统计
初始化import pandas as pdimport numpy as np# 文件目录,绝对路径INPUT_PATH = 'G:\DCIC\Data\\'# 文件读取行数MAX_ROWS = 100000 数据读取巡游车GPS数据读取taxigps2019 = pd.read_csv(INPUT_PATH + 'taxiGps20190531.csv', nrows=MAX_ROWS)# 查看数据的统计描述taxigps2019.describe()原创 2020-09-13 20:22:18 · 1970 阅读 · 10 评论 -
A城市巡游车与网约车运营特征对比分析—赛题介绍与准备工作
赛题介绍2020数字中国创新大赛赛题说明出租车作为城市客运交通系统的重要组成部分,以高效、便捷、灵活等优点深受居民青睐。出租车每天的运营中会产生大量的上下车点位相关信息,对这些数据进行科学合理的关联和挖掘,对比在工作日以及休息日、节假日的出租车数据的空间分布及其动态变化,对出租车候车泊位、管理调度和居民通勤特征的研究具有重要意义。赛题任务综合应用统计分析方法分别对所提供的巡游车和网约车运营的时间、空间分布特征进行量化计算,包括计算2年的每年工作日取日平均,非工作日取日平均和节假日取日平均原创 2020-09-07 14:28:57 · 2208 阅读 · 0 评论 -
资金流入流出预测—模型训练
模型训练与验证训练及预测流程数据集的划分无时序的数据集:简单划分、交叉验证划分有时序的数据集:需考虑时序,nested交叉验证划分 模型选择依据在验证集上的效果选择除了关注效果的均值,还要关注稳健性还需考虑线上效果,可将线上效果视为一折数据多元回归Y=f(X1,X2,...,Xn)+εY = f(X_1,X_2,...,X_n)+\varepsilonY=f(X1,X2,...,Xn)+ε常用的回归模型线性回归Y=β0+β1X1原创 2020-08-25 19:24:34 · 1786 阅读 · 1 评论 -
资金流入流出预测—特征工程
特征工程以及建模预测原创 2020-08-24 23:42:48 · 1262 阅读 · 0 评论 -
资金流入流出预测—时间序列规则
资金流入流出预测—时间序列规则特征简单统计量,可作为特征:中位数:稳健均值:当分布较符合正态分布时临近数据:临待预测数据较近的数据原创 2020-08-22 22:50:24 · 1410 阅读 · 0 评论 -
资金流入流出预测—数据探索与分析
数据探索与分析赛题分析赛题链接:资金流入流出预测赛题数据主要包含四个部分,分别为用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率表。用户信息表:user_profile_table.总共随机抽取了约 3 万用户,其中部分用户在 2014 年 9 月份第一次出现,这部分用户用作测试数据。训练集是约 2.8 万 个用户的基本数据,主要包含了用户的性别、城市和星座。具体的字段如下表:列名类型含义示例user_idbigint用户 ID1234Se原创 2020-08-20 21:52:00 · 3751 阅读 · 0 评论