数据科学 概念篇
文章平均质量分 84
数据科学概念
irober
这个作者很懒,什么都没留下…
展开
-
python数据可视化(matplotlib条形图、饼图、箱状图、直方图、折线图)(代码)
python数据可视化(matplotlib条形图、饼图、箱状图、直方图、折线图)matplotlib(条形图)一.简单条形图1、简单垂直条形图2、简单水平条形图二、水平交错条形图三、垂直堆叠条形图matplotlib(饼图)matplotlib(箱线图)matplotlib(直方图)一、一元直方图二、二元直方图matplotlib(折线图)一、一元折线图的绘制二、多元折线图本程序来自于网络,自...原创 2019-12-27 10:10:05 · 8562 阅读 · 0 评论 -
关于样本标准差(SD)与样本标准误差(SE)
关于样本标准差(SD)与样本标准误差(SE)许多paper里经常能看到Mean±SD(SE)这样的表达方式,或者在图表里用SD或者SE来表示error bar,用SD的居多,但是也有不少用SE的。初学者很容易混淆SD(standard deviation)和SE(standard error)。SDSD我们都很清楚,是表达数据的离散程度,然后实际应用中很多数据具有近似正态分布的概率分布,有了SD,我们就可以大致估计数据的范围,譬如经典的"68-95-99.7法则",即约 68% 数值分布在距离平均值有转载 2021-04-30 16:23:56 · 7926 阅读 · 1 评论 -
统计学之误差思维和置信区间
一、误差思维一个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响而造成的变化偏离标准值或规定值的数量 ,误差是不可避免的。只要有估计,就会有误差。二、置信区间和置信水平置信区间: 在统计学中,一个概率样本的置信区间(英语:Confidence interval,CI),是对产生这个样本的总体的参数分布(Parametric Distribution)中的某一个未知参数值,以区间形式给出的估计。换句话说,在某一置信水平下,样本统计值与总体参数值间误差范围。一般我们用中括号[a,b原创 2021-04-30 16:17:46 · 4530 阅读 · 1 评论 -
数据科学 15 推荐算法(概念)
数据科学 15 推荐算法(概念)15.1 智能推荐15.2 购物篮分析与运用15.2.1 关联规则1、评判规则的标准2、Apriori算法3、序贯模型4、相关性在推荐中的运用7.2 XXX7.2.1 XX1、图片2、规则3、 LaTeX公式主要内容:智能推荐购物篮分析与运用相关性在推荐中的运用15.1 智能推荐15.2 购物篮分析与运用15.2.1 关联规则1、评判规则的标准...原创 2020-03-16 10:57:50 · 744 阅读 · 0 评论 -
数据科学 14 银行客户渠道使用偏好洞察案例(概念)
数据科学 14 银行客户渠道使用偏好洞察案例(概念)13.1 客户画像与标签体系13.1.1 概念13.2.2 客户细分1、 简单方案2、 建模标准流程(适用于工业场景)13.2 分类变量的压缩13.2.1 水平变量编码转换1、分类变量重编码(概化)2、 基于目标变量的转换-WOE(基于证据的权重调整)13.3 连续变量的压缩13.3.1 主成分分析的思路13.3.2 变量聚类思路13.1 客户...原创 2020-03-13 09:54:28 · 1473 阅读 · 0 评论 -
数据科学 13 精准营销的两阶段预测模型(概念)
数据科学 13 精准营销的两阶段预测模型(概念)13.1 总体思路13.1.1 数据准备步骤1、 发现数据问题类型2、 不要将变量筛选全放到建模的时候13.2.2 解决方案1、 简单方案2、 建模标准流程(适用于工业场景)13.2 分类变量的压缩13.2.1 水平变量编码转换1、分类变量重编码(概化)2、 基于目标变量的转换-WOE(基于证据的权重调整)13.3 连续变量的压缩13.3.1 主成分...原创 2020-03-08 13:52:36 · 1151 阅读 · 0 评论 -
数据科学 12 连续变量关系探索与变量压缩(概念)
数据科学 12 连续变量关系探索与变量压缩(概念)12.1 多元统计基础与变量约减的思路7.1.1 XX1、图片2、x7.2 XXX7.2.1 XX1、图片2、规则3、 LaTeX公式主要内容:多元统计基础与变量约减的思路主成分分析因子分析稀疏主成分分析变量聚类12.1 多元统计基础与变量约减的思路7.1.1 XX1、图片a2、x7.2 XXX7.2.1 X...原创 2020-03-04 12:06:01 · 1468 阅读 · 0 评论 -
数据科学 11 不平衡数据问题处理及组合模型
数据科学 11 不平衡数据问题处理及组合模型11.1 不平衡数据问题11.1.1 背景11.1.2 处理方法11.1.3 数据处理全流程11.1.4 处理方法详解1、随机过抽样与欠抽样2、欠采样: Tomek Link方法3、过采样: SMOTE方法的实现4、综合采样11.2 组合模型11.2.1 集成学习概述1、装袋(Bagging)2、提升(boosting)算法11.2.2 随机森林1、概述...原创 2020-02-27 10:41:03 · 1188 阅读 · 0 评论 -
数据科学 10 神经网络(概念)
CSDN章节模板10.1 神经网络基本概念10.1.1 人工神经元输入输出关系1、常见的激发函数10.2 感知器与BP网络10.2.1 感知机1、基本结构2、原理3、 多层感知机10.2.2 BP神经网络1、原理3、 学习算法(概述)主要内容:a10.1 神经网络基本概念10.1.1 人工神经元输入输出关系Ii=∑j=1nwjixj−θiI_i=\sum\limits_{j=...原创 2020-02-24 18:52:54 · 831 阅读 · 0 评论 -
数据科学 9 决策树(概念)
数据科学 9 决策树9.1 决策树算法核心9.1.1 拆分规则3、缺点9.2.2 C4.5 决策树1、原理2、单个分类或等级变量3、比较多各变量的优先级9.2.3 R中的C5.0 算法(Python目前没有实现)9.2.4 CART决策树1、CART决策树原理2、基尼系数的计算9.2.5 决策树方法总结9.2.5 模型修剪——以CART为例1、预修剪2、后剪枝3、CART的决策树修剪方法—总结主...原创 2020-02-25 18:53:05 · 700 阅读 · 0 评论 -
数据科学 8 (补充)参数估计与凸优化
CSDN章节模板7.1 XXX7.1.1 XX1、图片2、x7.2 XXX7.2.1 XX1、图片2、规则3、 LaTeX公式主要内容:a7.1 XXX7.1.1 XX1、图片a2、x7.2 XXX7.2.1 XX目标:xxxxx1、图片xxxxxxx:• xxx:• xxx:• xxx:2、规则1)、x2)、x3)、x4)、x5)、x...原创 2020-02-21 12:13:47 · 743 阅读 · 0 评论 -
数据科学 8 逻辑回归(概念)
数据科学 8 逻辑回归8.1 逻辑回归基础8.1.1 分类变量之间的相关性检验1、分类变量间的相关性2、相关性检验3、卡方检验4、优势比(Odds Ratios)8.1.2 一元连续变量逻辑回归1、逻辑回归的类型2、逻辑回归模型与Logit 转换8.1.3 模型表现优劣的评估1、模型评估——ROC曲线2、混淆矩阵8.1.4 包含分类预测变量的逻辑回归1、伯努利分布2、正则化的逻辑回归主要内容:...原创 2020-02-21 12:13:22 · 731 阅读 · 0 评论 -
数据科学 7线性回归(概念)
数据科学 6 参数估计与统计推断6.1 参数估计6.1.1 概念1、总体与样本2、分层抽样3、系统抽样主要内容:假设检验与单样本T检验两样本T检验方差分析(分类变量和连续变量关系检验)相关分析(两连续变量关系检验)卡方检验(两分类变量关系检验)6.1 参数估计6.1.1 概念1、总体与样本总体 – 研究所感兴趣的所有个体组成总体样本 – 从总体抽取的部分个体组成样本,样...原创 2020-02-21 12:11:40 · 1424 阅读 · 0 评论 -
数据科学 6 参数估计与统计推断(概念)
数据科学 6 参数估计与统计推断6.1 参数估计6.1.1 概念1、总体与样本2、分层抽样3、系统抽样主要内容:假设检验与单样本T检验两样本T检验方差分析(分类变量和连续变量关系检验)相关分析(两连续变量关系检验)卡方检验(两分类变量关系检验)6.1 参数估计6.1.1 概念1、总体与样本总体 – 研究所感兴趣的所有个体组成总体样本 – 从总体抽取的部分个体组成样本,样...原创 2020-02-21 12:10:45 · 1434 阅读 · 0 评论 -
数据科学 5.5 数据抽样(代码)
数据科学 5.5 数据抽样5.5 数据抽样5.5.1 采样函数5.5.2 采样方案1、简单随机抽样2、分层抽样3、系统抽样5.5 数据抽样5.5.1 采样函数def get_sample(df, sampling="simple_random", k=1, stratified_col=None): """ 对输入的 dataframe 进行抽样的函数 参数: ...原创 2020-01-05 18:32:27 · 1021 阅读 · 0 评论 -
数据科学 5.4 数据清洗(代码)
数据科学 5.4 数据清洗(代码)5.4 数据清洗5.4.1、脏数据或数据不正确5.4.2、数据不一致1、数据重复2、缺失值处理5.4.3、噪声值处理1、盖帽法2、分箱法5.4 数据清洗import pandas as pdimport os import numpy as np# os.chdir(r"D:\Python_Training\script_Python\5Preproce...原创 2020-01-04 21:16:15 · 635 阅读 · 0 评论 -
数据科学 5.3 数据整合 代码sql
数据科学 5.3 数据整合 代码sql5.1 SQL语句介绍5.1.1 SQL数据库连接5.1.2 选择表中所有列5.1.3 删除重复的行5.1.4 选择满足条件的行5.1.5 对行进行排序5.2纵向连接表5.2.1 union 和 union all5.2.2 EXCEPT 和 INTERSECT5.3 练习: 多表纵向连接5.3.1DataFrame操作5.3.2 横向连接表1、读取数据2、笛...原创 2020-01-04 21:31:12 · 182 阅读 · 0 评论 -
数据科学 5.2 数据整合 pandas程序
数据科学5 数据整合和数据清洗 pandas程序第5章 数据整合和数据清洗(代码pandas)5.1 数据整合5.1.1 行列操作1. 单列2. 选择多行和多列3. 创建、删除列、行5.1.2 条件查询1. 单条件2. 多条件3. 使用query4. 其他5.1.3 横向连接1. 内连接2. 外连接3. 行索引连接5.1.4 纵向合并5.1.5 排序1. 排序5.1.6 分组汇总5.1.7 拆分、...原创 2020-01-02 20:55:25 · 260 阅读 · 0 评论 -
数据科学 5.1 数据处理(概念)
文章目录一、数据库基础1、基本概念二、数据整合与数据清洗1、数据整合1.1SQL语句介绍1.2数据纵向合并1.3数据横向合并1.4SQL进行汇总2、数据清洗1.1错误值处理1.2缺失值处理1.3噪声值处理三、数据整理一、数据库基础1、基本概念关系型数据库:将世界抽象为实体和关系,实体包括物和事件。(一张二维表中存放着实体的集合,“行”为一个实体,“列”为属性和特征。表与表之间通过逻辑关系相...原创 2020-01-02 08:26:25 · 1162 阅读 · 0 评论 -
数据科学 4、描述性统计与探索型数据分析(代码)
数据科学 4、描述性统计与探索型数据分析--代码数据预处理1、根据单价和面积计算房屋价格(价格=单价×面积)2、dist变量重新编码为中文,比如chaoyang改为朝阳区3、单因子频数:描述名义变量的分布3.1统计名义变量的频数3.2地区分布条形图与饼状图4、单变量描述:描述连续变量的分布4.1 平均值、中位数、标准差、倾斜4.2 聚合函数:agg同时统计多个统计量:平均值、中位数、标准差、倾斜4...原创 2019-12-29 20:05:08 · 907 阅读 · 0 评论 -
数据科学 3、描述性统计分析基础(概念)
数据科学 3、描述性统计分析基础一、基本概念1、变量的度量类型2、众数、中位数、平均数的关系3、常见连续分布4、描述统计方法4.1分类变量4.1.1单因子频数4.1.2 两分类变量4.2连续变量4.2.1 单连续变量4.2.2 一分类变量 + 一连续变量4.2.3两分类变量 + 一连续变量4.2.3 两连续变量4.2.4 时间与两个连续变量4.3关联性不同的图表内容来自天善智能 Python数据...原创 2019-12-29 19:24:20 · 894 阅读 · 0 评论 -
数据科学 2、分类盒须图、堆叠柱形图、stack2dim函数(代码)
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlibimport seaborn as snsimport os画两个维度标准化的堆积柱状图函数使用效果如下stack2dim(auto,'Owner','loss_flag')stack2dim(auto,'...原创 2019-12-27 11:13:07 · 2440 阅读 · 0 评论 -
数据科学 1、数理统计技术概述(概念)
数理统计技术一、Statement-统计分析二、机器学习三、分类算法的模型评估一、Statement-统计分析对于输入、输出为为离散、连续、单变量、多变量等情况时的检验方式。二、机器学习三、分类算法的模型评估评估指标汇总决策类模型评估排序类模型的评估指标...原创 2019-12-29 13:54:17 · 339 阅读 · 0 评论