自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

积一时之步,臻千里之遥程

努力是选择的基石,选择是努力的方向,但现在看来,选择比努力更重要!

  • 博客(9)
  • 资源 (6)
  • 收藏
  • 关注

原创 随机过采样与随机欠采样 代码

一般代码:上采样data['lable'].value_counts()number_all = len(data[data.lable == 0])pos_indices = np.array(data[data.lable == 1].index)all_indices = data[data.lable == 0].indexrandom_pos_indices = np.random.choice(pos_indices, number_all, replace = True)rand

2021-07-18 10:04:39 3018 1

原创 大数据数仓基础知识学习笔记【3】

学习数据仓库笔记,方便日后查询1、数据仓库主要架构2、数据仓库——ETL3、数据仓库建模(关系(E-R)模型、维度模型、Data Vault 模型)4、数据集市5、数据仓库实施步骤

2021-07-18 08:58:26 181

原创 HBase 基础学习

推荐学习:我终于看懂了HBase,太不容易了…

2021-07-14 08:48:01 131

转载 pandas读取csv相对路径_你还在用Pandas处理大型数据?我发现了一个既省时又省事的工具:Dask!...

转自:https://blog.csdn.net/weixin_39621456/article/details/112378654Pandas不具有多处理支持,并且对于较大的数据集来说,速度非常慢。 现在有一个更好的工具可以使这些CPU内核正常工作!在性数据分析方面,Pandas是最好的工具之一。但这并不意味着它适用于所有任务(比如说大数据处理)。在日常的工作中,我们往往要花很长时间等待Pandas读取文件或等待计算结果。最近,我发现了一个新工具,能快速处理大量的数据,比如读取多个包含10G数

2021-07-11 15:07:50 415

原创 利用Python做简单的数据可视化2【二手房数据】

1、读入数据import matplotlib.pyplot as pltimport seaborn as snsimport numpy as npimport pandas as pdfrom pyecharts import options as optsfrom pyecharts.charts import Piefrom pyecharts.globals import ThemeTypeplt.rcParams['font.sans-serif'] = ['SimHei']

2021-07-10 10:46:04 4055 1

原创 大数据数仓基础知识学习笔记【2】

数据仓库(Data Warehouse,DW)数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合主要用于历史数据的积存,并使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能数据仓库特点面向主题:(1)为数据分析提供服务,根据主题将原始数据集合在一起。(2)主题是指用户使用数据仓库进行决策时所关心的重点领域。(3)从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象做了比较完整的、一致的描述,这种描述不仅涉及数据自身

2021-07-07 22:22:04 1481 3

原创 Python加速运行技巧

Python加速运行技巧,有时候,一些小技巧确实能够大大的提高效率推荐学习链接:https://zhuanlan.zhihu.com/p/143052860

2021-07-06 15:24:58 171

原创 利用Python做简单的数据可视化

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom pylab import mpl# 正常显示中文标签mpl.rcParams['font.sans-serif'] = ['KaiTi']# 正常显示负号mpl.rcParams['axes.unicode_minus'] = Falseimport warningswarnings.filterwa

2021-07-04 19:34:00 2628 27

转载 SMOTE算法及其Python实现

转载自:https://blog.csdn.net/Yaphat/article/details/52463304作者:Yaphat补充转载正文:SMOTESMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术.它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General)。SMOTE算法的

2021-07-02 14:12:56 11635 2

文件迁移工具-原位置留下快捷方式,不破坏文件

Windows 系统上的文件迁移工具,迁移后,原位置留下快捷方式,不破坏文件,可以自由移到其他文件目录。

2022-10-12

对比条形图主城九区.xlsx

对比条形图主城九区.xlsx

2022-03-18

世界各国中英文对照.xlsx

世界各国中英文对照.xlsx

2022-03-18

合并excel小软件.zip

就简单的把相同格式的excel表进行合并

2021-11-03

第二阶段SFA回归数据模板.xls

DEA第二阶段计算表格

2021-01-02

R语言期末试题R语言期末试题

R语言期末试题

2020-12-30

KNN实现鸢尾花分类

knn的python代码 #样本数据150*4二维数据,代表150个样本, #每个样本4个属性分别为花瓣和花萼的长、宽

2019-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除