数据分析
文章平均质量分 82
T o r
记忆在长间隔中形成潜意识层的内隐记忆才能进一步提升学习深度,实战正是调整内隐记忆的过程
重复观察记忆无法达到潜意识层内隐记忆的有效学习效果,实战包括反思、演练(高度调用潜意识内隐记忆进行工作),此时出现偏差都能让潜意识层进行纠正,从而达到形成新的或正确的潜意识内隐 记忆的效果。内隐记忆形成也是让工作变得更具效率的最有效方法。
展开
-
20、数据分析直观处理
数据分析概述: 机器学习、数据分析、数据挖掘的区别与联系: 数据分析:数据分析是指用适当的统计分析方法对收集的大量数据进行分析,并提取有用的信息,以及形成结论,从而对数据进行详细的研究和概括过程。在实际工作中,数据分析可帮助人们做出判断;数据分析一般而言可以分为统计分析、探索性数据分析和验证性数据分析三大类。 数据挖掘(分析出隐藏的信息,每个字段进行分析操作):一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。通常通过统计、检索、机器学习、模式匹配等诸多方法来实现这个过程。 机器原创 2021-07-21 17:45:34 · 241 阅读 · 0 评论 -
19、数据分析--EM算法
概率密度函数 对于一维实随机变量X,设它的累积分布函数是FX(x)。如果存在可测函数fX(x),满足:那么X是一个连续型随机变量,并且fX(x)是它的概率密度函数。 密度函数f(x)具有下列性质: f(x)≥ 0 任意一点(两点围成的面积才叫概率,这里的每一点都是指从图像上的点垂直到x轴上能作垂线的点)概率密度大于等于0(概率非负) J f(x) d(x)= 1 函数线与坐标轴围成的总面积为1(必然条件) 概率上的点不能代表概率的大小,只能选取一个区间,区间内的面积即概率相原创 2021-07-21 00:23:46 · 648 阅读 · 0 评论 -
18、数据分析--聚类算法
聚类算法属于无监督的一种算法,不需要标签就可以进行处理0K -means家族(K-means算法是聚类算法中最常用的) 给定一个有M个对象的数据集,构建一个具有k个簇(组)的模型,其中k<=M。满足以下条件: 每个簇至少包含一个对象 每个对象属于且仅属于一个簇 将满足上述条件的k个簇成为一个合理的聚类划分 基本思想:对于给定的类别数目k,首先给定初始划分,通过迭代改变样本和簇的隶属关系,使的 每次处理后得到的划分方式比上一次的好(总的数据集之间的距离和变小了),(K不是一次原创 2021-07-18 15:43:39 · 2077 阅读 · 5 评论 -
17、数据分析--支持向量机
支持向量机是处理回归问题的可泛化性能最好的,解决过拟合,机器学习中算法精度也是最高的相关数学知识 梯度下降 梯度下降法(Gradient Descent, GD)常用于求解无约束(不跟其他的位置比最近,而是只自己比什么时候数值最小)情况下凸函数(Convex Function)的极小 值,是一种迭代类型的算法,因为凸函数只有一个极值点,故求解出来的极小值点就是函数的最小 值点 最优化问题一般是指对于某一个函数而言,求解在其指定作用域上的全局最小值问题,一般分为以 下三种情况(备注:以下几种原创 2021-07-16 21:10:45 · 550 阅读 · 0 评论 -
16、数据分析--朴素贝叶斯
贝叶斯公式概率可以理解为某一件事情发生的可能性,记为 P(A)我们可以使用文氏图的方式进行表示为: 其中为必然事件 通过这个情况,我们其实可以将P(A)修改为P(A| Ω)= pA/pΠ 代表Ω条件下A发生的概率联合概率 :P(AB)以Π为底 如果想要求出AB两个事情同时发生的概率,就需要 计算他们的交集,概率记为P(AB)条件概率:P(AB)以p(A)为底 设A,B为任意两个事件,若P(A)>0,我们称在已知事件A发生的条件下,事件B发生的概率为条件概率, 记为原创 2021-07-16 14:03:06 · 560 阅读 · 0 评论 -
15、数据分析--集成学习(二)
Boosting集成算法(实现的方式有很多) Boosting(就像流水线一样的工作形式)通过串行地构造多个个体分类器,然后以一定的方式将他们组合 成一个强学习器每个个体学习器训练数据集后都把总结给到强学习器和下一个个体学习器 Boosting在集成学习领域是非常耀眼的一类方法,其中又以AdaBoost和GBDT最为突出 AdaBoost是Adaptive Boosting的简称,在人脸识别(在深度学习成型前用Adaboost最多)和处理不均匀数据相关领域得到广泛引用; GBDT 更是被称原创 2021-07-12 15:38:50 · 532 阅读 · 3 评论 -
14、数据分析--集成学习(一)
集成学习(核心算法,算法中精度最高): 概念: 将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器指那些分类准确率只稍微好于随机猜测的分类器(errorrate < 0.5)(弱学习器准确率不高,整合起来能得到一个强的学习器,准确率也会提高) 集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升 常见的集成学习思想有:Bagging Boosting Stacking 作用原创 2021-07-11 23:08:38 · 475 阅读 · 1 评论 -
13、数据分析--决策树
决策树可视化 库的下载和安装https://www.jianshu.com/p/4f28335ee2691.安装GraphViz2.安装graphviz的python库决策树简介 计算机中树的数据结构,第一层的节点又叫根节点,最后最下面的一层叫叶节点,其他的是属性节点(内部节点) 直观理解(决策树和KNN算法非常相似,所以也是能进行处理分类和回归的问题): 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支(上级分支到下级分支的过程)代表一个测试输出,原创 2021-04-20 18:20:59 · 945 阅读 · 0 评论 -
12、数据分析--K近邻算法
距离度量(特性相同导致差距很小): 闵可夫斯基距离(用来处理分类): 假设有两个样本点x1,x2,两者间的闵可夫斯基距离Lp中有 当p=1时,称为曼哈顿距离(把所有向量中每个维度的差的绝对值求和) 当p=2时,称为欧氏距离 当p=∞时,称为切比雪夫距离 切比雪夫距离比欧式距离小,欧式距离比曼哈顿距离要小 带权平均数(用来处理回归):假设有a1,a2 ,a3三个数,对应的权重分别是p1, p2 , p3,则a的平均值为(p1a1 + p2a2 + p原创 2021-04-12 21:27:03 · 726 阅读 · 1 评论 -
11、数据分析--逻辑回归
线性回归(用特征之间的规律进行回归处理)是处理连续性的,逻辑回归(用特征之间的规律进行逻辑处理)属于分类是处理离散性的 关于判断其实就是二分类问题逻辑回归的基础还是使用了线性回归来处理,只是把模型进行了调整,转化为概率问题逻辑回归(进行二分类的最快算法,深度学习都可用到)概念:逻辑回归,即逻辑模型,也译作“评定模型”、“分类评定模型”回归要求得到的外标签的数值是连续的,逻辑回归则是要进行二分类问题的模型,通过标签在图像上的表示,然后用线性回归的图像线来分隔出各种外标签区域,当数据在哪个区域时原创 2021-04-10 20:23:46 · 1083 阅读 · 0 评论 -
10、数据分析--数据降维
数据降维不是正则化,虽然都是解决过拟合的方式※数据降维的核心:特征值分解知识补充:数据可以从大数据厂商购置或爬虫获取 fit在用升维,降维,训练等处理进行拟合是必要操作(这样才能得到实质的处理完的数据模型),transform是要把数据(新旧都可以,原来fit拟合的数据放进去就相当于提取出来,然后就可以观察了)放回到fit处理得到的模型里进行匹配转化来提取数据数据信息处理: 缺失值填充的方式(缺失值表示NAN,表示不是一个数的意思,如果拟合的时候其中一次计算代入NAN,那么所得的预测原创 2021-04-02 21:29:23 · 1743 阅读 · 0 评论 -
9、数据分析--线性回归算法(三)
线性回归的其他含义 注:一个基本初等函数充当另一个基本初等函数中的未知数时才算复合函数特征扩展: 多项式回归(得到的模型图的效果一般都会比不用多项式回归的更加好): 线性回归的局限性是只能应用于存在线性关系的数据中,但是在实际生活中,很多数据之间是非线性关系,也可以用线性回归拟合非线性回归,但效果很差,此时就需要对线性回归模型进行改进,使之能够拟合非线性数据。 目标:将数据进行升维处理(特征拓展),可以更好的适应模型(有些数据不能通过一条直线来表达的时候,原创 2021-03-22 20:09:04 · 729 阅读 · 0 评论 -
8、数据分析--线性回归算法(二)
通过SKlearn把底层算法能简单的执行机器学习的编程其实并不难实现梯度下降: 梯度下降法(Gradient Descent,GD)常用于求解无约束情况下凸函数(Convex Function)的极小值,是一种迭代类型的算法,因为凸函数只有一个极值点,故求解出来的极小值点就是函数的最小值点。 凸函数:函数图像上任意两点的连线要在最小值的上方。 线性代数的代价函数又叫最小二乘法,h-y用平方形式表达正数,不用绝对值,是因为绝对值包括了正还有负,图像就变成了V字形图像而不能求导了。导数的性原创 2021-03-12 16:20:49 · 536 阅读 · 0 评论 -
7、数据分析--线性回归算法(一)
机器学习的入门算法:线性回归 人通过问题或者经验得到规律,利用的是学习方法,然后就能预测未来的可能发展。 人工智能通过数据得到数据模型,利用的是算法,然后也可以预测未来的发展,其实和人的学习是类似的。 人工智能的数据模型是一种函数的表达式,机器学习通过训练不断的调整,最后得到最好的表达来呈现出最理想的数据模型基础概念: 我们可以通过样本中的特征去预测样本的结果,多个特征形成的一个数据可以用向量来表示,多个数据可以用矩阵来表示,人工智能要通过数据得到模型,主要的载体就是向量或者矩阵。原创 2021-03-04 01:23:17 · 585 阅读 · 1 评论 -
6、数据分析matplotlib
公司的领导喜欢看到可视化的数据,特别是一眼明了,清晰明确的。matplotlib是matlab的一个python版本,但是他比matlab的图面效果要强大和操作门槛更高,而且还免费scipy库包括numpy、pandas和matplotlib等有不懂的函数使用的时候,可以print(help(plt.函数)),函数后不带括号导入:Import matplotlib.pyplot as pltplt.plot(x, y) 有多个x,y(至少两个以上才能成线),绘制折线图 x为所有样本点的x原创 2021-03-02 23:48:37 · 198 阅读 · 0 评论 -
5、数据分析pandas
数据模型是数学公式,算法是计算通过模型进行的操作步骤,优质的数据能提高算法的质量,数据结构是数据的存储方式。pandas中的数据类型: series:在人工智能中代表特征 数据结构实质为一行数据(在数据帧中看起来像是某一行的数据,但是在系列处理的时候,会以列进行处理,在数据帧中以行进行处理),其参数index是唯一的,与散列一样,不设置时以范围来按np.arange(n)中的顺序进行n次逐一传递,pd.Series(np.arange(10))这里是把numpy数组传入,只设置了data。原创 2021-02-28 11:53:56 · 120 阅读 · 0 评论 -
4、数据分析numpy
底层算法核心在于数学公式,这些公式构成的库搭载于Numpy向量为一维数组,矩阵为二维数组, 二维数组就是数组的数组【【1,2,3】,【1,2,3】】还是矩阵,这里的dtype的元素类型是整数型,指的是里面的数值而不是矩阵的局部体e+1为10的1次方数组的type:类型是numpy.ndarray(其中ndarray表示n维的数组)创建最常规数组:np.array创建一个指定形状(shape)、数据类型(dtype)且未初始化的数组:np.empty(未初始化的数组就是定义了没有赋值)创建指定大原创 2021-02-28 08:32:36 · 103 阅读 · 1 评论 -
3、数据分析概率论
概率属于分类算法的一个基础:随机试验就是一个事件。P(A·B),中间的点乘一般是不省略的,以表示是两个事件,而不是事件AB(一个事件)。P(A·B)表示事件A与事件B同时发生的概率,之所以用这种记法,是因为研究事件A与事件B同时发生的情况时,最常遇见的情形是A与B无关或相互独立(必须相互独立才能进行相乘),此种情形下有P(A·B)=P(A)·P(B),可以看出这种记法很简洁、易记。P(AB)就是A事件和B事件同时发生的概率,等于A事件和B事件发生概率的乘积。P(A∣B)是条件概率公式,P(A|B) =原创 2021-02-28 08:31:59 · 837 阅读 · 0 评论 -
2、数据分析线代篇
有监督的回归的一个基础:单位矩阵:乘任何矩阵都是其任何矩阵本身。阶梯矩阵:主对角线的一边所有向量全为零,从而其行列式为主对角线所有向量相乘齐次线性方程组:常数项是右边那个0,其他带x的都不是常数项矩阵和矩阵的乘法:一列的一个数只能乘一行的一个数Am×nx=0只有零解 <=> r(A)=n • 特别地,A是n×n时,则Am×nx=0只有零解 <=> |A|≠0 • Am×nx=0有非零解 <=> r(A) |A|=0 • 若m有没有零解指的是x的向量是不是都等0原创 2021-02-27 12:48:54 · 471 阅读 · 0 评论 -
1、数据分析高数篇
有监督学习:有标签无监督学习:无标签一、• 线性回归 :• 通过已有的数据,进行新数据结果的预测(有监督学习方式处理)对连续型变量做预测叫回归,对离散型变量做预测叫分类比如有关于天气的变量:晴,阴,雨。只能是其中单独一个,不存在介于两种之间的,即不能又晴又雨。连续的变量是指取值可以是连续的变量。比如身高,体重等。可以在某个区间内取任意值都可以二、• 朴素贝叶斯算法(概率论的算法) :• 通过先验概率,去对后验概率进行计算(有监督学习方式处理)三、• K-Means算法 :• 计算所有样本点到质心原创 2021-02-27 12:47:42 · 439 阅读 · 0 评论