
数据分析
文章平均质量分 96
我不爱机器学习
这个作者很懒,什么都没留下…
展开
-
高斯分布、高斯混合详细讲解
123原创 2020-04-09 22:14:00 · 1390 阅读 · 0 评论 -
参数模型与非参数模型
1、参数模型(parametric models)在机器学习中,有一组训练数据 ,,通常都会先提出一个假设,然后通过训练这个假设让不断接近数据的真实的函数(也叫映射函数)。注意这个真实的函数是未知的,我们要做的只是不断逼近真实的函数。还有假设 其实就是一个方程,这个是人为定义的。比如根据数据的分布趋势,选取了线性回归,则假设函数 便是。这个假设中除了是已知的,均...原创 2020-01-11 19:55:00 · 5853 阅读 · 0 评论 -
python3 决策树(ID3、C4.5、CART)原理详细说明与公式推导
1、简介1.1 树的定义决策树(decision tree)是一种描述对实例进行分类的树形结构,由结点 (node)和有向边 (directed edge)组成。结点有三种类型:根结点(root node):表示树根 内结点 (internal node):表示特征 叶结点(leaf node):表示类 边 (directed edge):表示划分的条件决策树的是...原创 2019-12-19 15:38:01 · 2590 阅读 · 0 评论 -
决策树 CART 自编代码 (Python3)
根据决策树CART的原理用Python3写出,代码如下:from random import randrange# 根据阈值对单个属性数据(数值)进行分割def split_numerical(attribute_index, thresh, datasets): left, right = [], [] for r in datasets: if r[...原创 2019-12-19 15:37:32 · 831 阅读 · 0 评论 -
核函数(Kernel function)(举例说明,通俗易懂)
将原始空间中的向量作为输入向量,并返回特征空间(转换后的数据空间,可能是高维)中向量的点积的函数称为核函数。使用内核,不需要显式地将数据嵌入到空间中,因为许多算法只需要图像向量之间的内积(内积是标量);在特征空间不需要数据的坐标。例1:考虑一个带有特征映射的二维输入空间特征映射二维到三维:特征空间中的内积:根据上面得,核函数为但核函数只是计算映射的内积,所以映射为也是可以得到上面的核函数但是特征空间变为4维了,所以对核函数来说特征空间不唯一。怎么理解高斯核可以扩展为无限维?原创 2019-12-12 15:00:57 · 147136 阅读 · 31 评论 -
拉格朗日乘子、拉格朗日对偶问题 (举例说明,通俗易懂)
本文通过一系列的例子来说明拉格朗日乘子的运算以及原理,通俗易懂。1、拉格朗日乘数(乘子)原理定义:In mathematical optimization, the method of Lagrange multipliers is a strategy for finding the local maxima and minima of a function subject to ...原创 2019-12-10 13:50:58 · 17579 阅读 · 2 评论 -
python3 Fisher线性判别分析(LDA)(含详细推导和代码)
1、线性判别原理线性判别分析是常用的降维技术,在模式分类和机器学习的预处理步骤中。其目标是将数据集投影到具有良好的类可分性的低维空间中,以避免过度拟合(维数过多)并降低计算成本,如将一个特征空间(一个数据集n维样本)投射到一个更小的子空间k(其中k ≤n-1)上,同时维护类区分信息。判别式是一个函数,它接受一个输入向量x,并把它赋值给K个类中的一个,记作。在这一章中,我们将把注意力限制在线...原创 2019-12-03 15:48:29 · 11744 阅读 · 8 评论 -
python3 联合概率,边缘概率,贝叶斯定理(含详细推导)
1、贝叶斯原理假设有两个随机变量X;Y(下方左图); X的取值为 {},其中 i=1,...,M(M个特征); Y的取值为 {},,其中 j=1,...,L(L个类),如下图所示,M=5, L=3。 假设这两个变量的实例总数N,那用表示的实例数,即数组相应...原创 2019-11-27 18:58:02 · 6276 阅读 · 4 评论 -
python3 逻辑回归(含推导)
1、比率(odds)、概率(probability)和可能性(likelihood:似然)例如:成功7次,失败5次比率 =某一类样本数/另一类样本数}=7/5 概率 = 某一类样本数/所有可能情况的样本=7/(7+5) 可能性:如果用theta表示环境参数,y表示结果,则概率表示为:(条件概率,已知theta),theta称为前置条件;在已知y的条件下求theta则称为可能性:,一般采...原创 2019-11-19 09:49:56 · 1291 阅读 · 1 评论 -
python3 如何评价模型的表现(分类指标:confusion matrix、ROC、AUC)
1. 错误率和准确率准确率不是评价模型好坏的标准,如遇到类别不平衡(class imbalance)的数据,典型的垃圾邮件问题,99%的邮件都是非垃圾邮件,1%为垃圾邮件,那分类准确率99%就没有什么意义。错误率 = 分类错误样本数/样本总数 准确率:分类正确样本数/样本总数2. 混淆矩阵类别 predicted:spam email (expectatio...原创 2019-11-16 15:32:46 · 3090 阅读 · 0 评论 -
python3 正则化:Lasso、Ridge、Elastic Net
1、线性正则化降低线性回归的损失函数,大的系数会造成过拟合,为每个特征变量选一个系数,当某一变量的系数过大时,会使预测偏向该特征,因此损失函数会惩罚(penality)大的系数(绝对值大),这就叫正则化。代价函数 = 均方误差 + 惩罚函数 均方误差:使训练误差变小 惩罚函数:使参数绝对值变小 (是惩罚参数)...原创 2019-11-14 10:54:24 · 1510 阅读 · 1 评论 -
python3 自编线性回归(4种方法)
1、数据准备:import numpy as npx = np.array([0, 1, 2, 3])y = np.array([-1, 0.2, 0.9, 2.1])X, Y = x, y2、直线回归方程,适用于一元线性回归# 直线回归方程求解(y=bx+a+e)def regressgion(x, y): x_mean = np.mean(x) y_...原创 2019-11-13 10:31:58 · 965 阅读 · 2 评论 -
K均值聚类python代码
数据介绍:有三列,一列是name,即样本的名字,另外两列是数值数据,对name进行聚类,再根据聚类的标签(从0开始),然后建立交叉表。代码:from sklearn.cluster import KMeans #k均值聚类import pandas as pddf = pd.read_csv('XXXX.csv')#print(df.head)#print(df.colum...原创 2019-06-10 13:25:13 · 2915 阅读 · 0 评论 -
python:读取多个Excel表单进行成组测验并绘制误差棒图
对多个表单的成组数据进行t测试并能够将结果保存到excel. python 代码: from scipy.stats import ttest_ind # 引入成组测验的包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata = {} # 初始化字典,放入表单数据re...原创 2019-05-29 14:46:45 · 869 阅读 · 0 评论 -
深入浅出数据分析----- 学习笔记
数据分析固定流程 客户帮你确定问题,客户试分析结果的服务对象,可能是上司、执行官、本人。客户将根据你的分析作决策,需要从他那里多了解一些信息,才能确定问题: 分解 评估 心智模型 你对外界的假设和你确信的观点就是心智...原创 2018-10-10 19:31:34 · 2461 阅读 · 0 评论 -
谁说菜鸟不会数据分析(SPSS篇)----- 学习笔记
SPSS 变量尺度跟数据类型 百分位值:将数据从小到大排序,用n-1个数据点将数据分成n等份 集中趋势:反映数据向其中心值凝聚的程度,对数据一般水平的概括性度量 离散趋势:反映数据偏离中心值的程度,是衡量集中趋势值对整个数据的代表程度。数据离散程度越大,集中趋势值代表性越低;反之,离散程度越接近于0,集中趋势值代表性越高 条形图和直...原创 2018-10-01 19:29:55 · 14631 阅读 · 4 评论 -
谁说菜鸟不会数据分析(入门篇)----- 学习笔记6(数据分析报告)
1、数据分析报告:三大作用四项基本原则定义 是根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的现状、问题、原因、本质和规律,并得出结论,提出解决办法的一种分析应用文体。 这种文体是决策者认识事物、了解事物、掌握信息、搜集相关信息的主要工具之一,数据分析报告通过随事物数据全方位的科学分析来评估其环境及发展情况,为决策者提供科学、严谨的依据,降低风险。 ...原创 2018-09-26 22:16:33 · 1870 阅读 · 0 评论 -
谁说菜鸟不会数据分析(入门篇)----- 学习笔记5(数据展现:图表)
1、图表作用:表达形象化、突出重点、体现专业化2、图标类型:3、通过关系选择图表4、图表制作5步法5、图表:图所不能说的话突出单元格显示:绝对值 项目选取:相对值 数据条:量纲不同 图标集:企业运营指标发展态势监控 迷你图:塞到每一个单元格6、图表换装-由经济适用图表转换而来平均线图(对比)-不带标记的折线图 双坐标图(两个系列及以上,量纲不同或数据...原创 2018-09-25 23:01:41 · 1898 阅读 · 0 评论 -
谁说菜鸟不会数据分析(入门篇)----- 学习笔记4(数据分析方法)
1、数据分析方法数据分析作用与对应的分析方法 数据分析作用 基本方法 数据分析方法 现状分析 对比 对比分析、平均分析、总和评价分析 原因分析 细分 分组分析、结构分析、交叉分析、杜邦分析 漏斗图分析、矩阵关联分析、聚类分析 预测分析 预测 回归分析、时间序列、决策树、神经网络 ...原创 2018-09-25 18:38:36 · 3157 阅读 · 0 评论 -
谁说菜鸟不会数据分析(入门篇)----- 学习笔记3(数据准备、处理)
1、数据准备:一维表的列标签是字段,二维表的列标签是数据数据表的设计要求 数据表由标题行和数据部分组成 第一行是标的列标题(字段名),列标题不能重复 第二行是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列 数据表中不能有合并单元格存在 数据表与其他数据之间应该留出至少一个空白行和一个空白列 数据表需要以一维...原创 2018-09-24 21:13:11 · 1034 阅读 · 0 评论 -
谁说菜鸟不会数据分析(入门篇)----- 学习笔记2(结构为王:确定分析思路 4P 5W2H )
1、数据分析方法论确定分析思路需要以营销、管理等理论为指导,把这些跟数据分析相关的营销、管理等理论统称为数据分析方法论。 数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,更多的是指数据分析思路,如从哪方面开展数据分析?各方面包含什么内容和指标。 数据分析方法论主要是从宏观角度指导如何进行数据分析,一个数据分析的前期规划,指导着后期数据分析工作的开展。数据分析法则是指具体的分析方...原创 2018-09-24 15:02:10 · 1858 阅读 · 0 评论 -
谁说菜鸟不会数据分析(工具篇)----- 学习笔记3(数据展现和日报月报自动化)
1、数据可视化的意义交互性:用户能够方便地通过交互界面实现数据的管理、计算与预测 多维性:可从数据的多个属性或变量对数据进行切片、钻取、旋转等,以此剖析数据,从而能多角度、多方面分析数据 可视性:数据可用图像、二维图形、三维图形和动画等方式来展现,并可对其模式和相互关系进行可视化分析。2、工具google fusion tables many eyes nodexl3、水晶易表...原创 2018-09-23 16:42:36 · 1009 阅读 · 0 评论 -
谁说菜鸟不会数据分析(工具篇)----- 学习笔记2(数据分析:excel:power pivot)
1、数据分析方法:(1)呈现现状的描述性统计(power pivot :pp ),通过对比与细分进行现状及原因分析。可制作数据透视表,通过求和、求均值以及数据组成了解其构成,还可通过不同时间维度的对比,查找数据变化原因,最后制作相关图表对现状进行呈现及描述。(2)展望未来的预测性分析,分析现有数据间的相关性,探寻数据之间存在的联系,并进一步建立相关回归模型(分析工具库)的方式对未来进行预测...原创 2018-09-22 20:09:44 · 1165 阅读 · 0 评论 -
谁说菜鸟不会数据分析(工具篇)----- 学习笔记1(Access SQL基本用法)
1、数据库(database)数据库是按照数据结构来组织、存储和管理数据的仓库。利用数据库中的各种对象,记录、处理和分析各种数据。常用数据库:oracle,SQL Server,MySQL,Access等关系型数据库NoSQL技术的分布式数据库:Hbase,MongoDB,Redis等(1)Access数据库 优点:操作界面友好,易操作;查询处理可直接生成相应的SQL...原创 2018-09-21 22:18:25 · 4001 阅读 · 0 评论 -
谁说菜鸟不会数据分析(入门篇)----- 学习笔记1(数据分析基本概念)
1、何谓数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这里的数据也称观测值,是通过实验、测量、观察、调查等方式获取的结果,常常以数量的形式展现出来。数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总...原创 2018-09-20 21:02:18 · 2693 阅读 · 0 评论