- 博客(9)
- 资源 (6)
- 收藏
- 关注
原创 随机过采样与随机欠采样 代码
一般代码:上采样data['lable'].value_counts()number_all = len(data[data.lable == 0])pos_indices = np.array(data[data.lable == 1].index)all_indices = data[data.lable == 0].indexrandom_pos_indices = np.random.choice(pos_indices, number_all, replace = True)rand
2021-07-18 10:04:39 3018 1
原创 大数据数仓基础知识学习笔记【3】
学习数据仓库笔记,方便日后查询1、数据仓库主要架构2、数据仓库——ETL3、数据仓库建模(关系(E-R)模型、维度模型、Data Vault 模型)4、数据集市5、数据仓库实施步骤
2021-07-18 08:58:26 181
转载 pandas读取csv相对路径_你还在用Pandas处理大型数据?我发现了一个既省时又省事的工具:Dask!...
转自:https://blog.csdn.net/weixin_39621456/article/details/112378654Pandas不具有多处理支持,并且对于较大的数据集来说,速度非常慢。 现在有一个更好的工具可以使这些CPU内核正常工作!在性数据分析方面,Pandas是最好的工具之一。但这并不意味着它适用于所有任务(比如说大数据处理)。在日常的工作中,我们往往要花很长时间等待Pandas读取文件或等待计算结果。最近,我发现了一个新工具,能快速处理大量的数据,比如读取多个包含10G数
2021-07-11 15:07:50 415
原创 利用Python做简单的数据可视化2【二手房数据】
1、读入数据import matplotlib.pyplot as pltimport seaborn as snsimport numpy as npimport pandas as pdfrom pyecharts import options as optsfrom pyecharts.charts import Piefrom pyecharts.globals import ThemeTypeplt.rcParams['font.sans-serif'] = ['SimHei']
2021-07-10 10:46:04 4055 1
原创 大数据数仓基础知识学习笔记【2】
数据仓库(Data Warehouse,DW)数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合主要用于历史数据的积存,并使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能数据仓库特点面向主题:(1)为数据分析提供服务,根据主题将原始数据集合在一起。(2)主题是指用户使用数据仓库进行决策时所关心的重点领域。(3)从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象做了比较完整的、一致的描述,这种描述不仅涉及数据自身
2021-07-07 22:22:04 1481 3
原创 Python加速运行技巧
Python加速运行技巧,有时候,一些小技巧确实能够大大的提高效率推荐学习链接:https://zhuanlan.zhihu.com/p/143052860
2021-07-06 15:24:58 171
原创 利用Python做简单的数据可视化
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom pylab import mpl# 正常显示中文标签mpl.rcParams['font.sans-serif'] = ['KaiTi']# 正常显示负号mpl.rcParams['axes.unicode_minus'] = Falseimport warningswarnings.filterwa
2021-07-04 19:34:00 2628 27
转载 SMOTE算法及其Python实现
转载自:https://blog.csdn.net/Yaphat/article/details/52463304作者:Yaphat补充转载正文:SMOTESMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术.它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General)。SMOTE算法的
2021-07-02 14:12:56 11635 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人