概念与基础知识
WandaWang0822
喜欢瞎倒腾、不靠谱的数据小白
展开
-
时间序列-预测口罩人数(ARIMA)
使用时间序列模型预测口罩变化趋势。原创 2022-09-07 09:53:58 · 418 阅读 · 1 评论 -
时间序列-ARIMA
将非平稳时间序列转换为平稳时间序列然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。1)AR是自回归,p为自回归项,MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所作的差分次数。1)有序的随机变量序列与其自身相比较自相关函数反映了同一序列在不同时序的取值之间的相关性。描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测。1)ARIMA模型的残差是否是平均值为0且方差为常数的正态分布。移动平均模型关注的是自回归模型中的误差项的累加。原创 2022-09-07 09:52:13 · 367 阅读 · 0 评论 -
时间序列-平稳性
1)平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段时间内仍能顺着现有的形态“惯性”地延续下去。1)严平稳:严平稳表示的分布不随时间的改变而改变。如:白噪声(正态),无论怎么取都是期望为0,方差为1.未来某时刻的t值Xt就要依赖于它的过去信息,所以需要依赖性。2)弱平稳:期望与相关系数(依赖性)不变。1)时间序列在t与t-1时刻的差值。2)代码块(pandas)2)平稳性要求序列的。原创 2022-09-07 09:51:19 · 1120 阅读 · 0 评论 -
MAC安装tensorflow
因为电脑安装的anaconda是python3.9版本,下意识的安装tensor flow的定义python版本就下了3.9(这里有一个坑)报错如下,大概是说不支持python版本3.9,支持的版本包括2.7,3.7,3.6,3.5。相比较网上的其他教程,这个安装方法亲测有效,且比较简单,只需要4步。第四步,将python版本降级,我是从3.9改成了3.6。第三步安装tensor flow (问题来了)第一次在mac上安装tensorflow。第二步激活tensor flow环境。第五步,再来一次安装。原创 2022-09-07 09:50:25 · 3780 阅读 · 1 评论 -
机器学习-朴素贝叶斯分类
朴素贝叶斯有一个条件独立性,所以称为朴素。朴素贝叶斯的思想:贝叶斯学派的四件可以概括为:先验概率+数据=后验概率贝叶斯随着信息增加,贝叶斯定理可以用于更新假设的概率。在决策理论中,贝叶斯推断与主观概率密切相关,通常被称为“Bayesian probability(贝叶斯概率)”。贝叶斯推断根据 prior probability(先验概率) 和统计模型导出的“likelihood function(似然函数)”的结果,再由贝叶斯定理计算 posterior probability(后验概率)原创 2020-09-14 15:00:30 · 270 阅读 · 0 评论 -
KNN算法(python)K近邻法
KNN分类原理:局部学习方法:思想:K-NN算法的核心:在训练集中选取距离输入的数据点最邻近的K个邻居,根据这个K个邻居中出现次数最多的类别(最大表决规则),作为该数据点的类别。 计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等); 对上面所有的距离值进行排序; 选前k个最小距离的样本; 根据这k个样本的标签进行投票,得到最后的分类类别; KNN的修正:1.经典k邻域的样本点对预测结果的贡献度是相等的。2.而一个简单的思.原创 2020-08-30 21:45:51 · 315 阅读 · 0 评论 -
机器学习的信息论基础
信息论的由来:是应用数学的分支,主要研究的是对一个信号能够提供的信息多少进行量化,最初用于研究在一个含有噪声的信道上用离散的字母表来发送消息,指导最优的通信编码。一个信息论的基本想法:一个不太可能发生的事件发生了要比一个非常可能的事件发生提供更多的信息,也就是‘异常’事件发生的背后拥有我们更想知道的东西。信息熵自信息:一个事件所包含的信息信息熵:随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大,及所描述的是有关事件X的所有可能结果的自信息期望值:其中,n.原创 2020-08-06 17:55:57 · 441 阅读 · 0 评论 -
AWS 云从业者-云的基础知识
什么是云计算?云计算通过互联网按需提供 IT 资源,并且采用按使用量付费的定价方式。您可以根据需要从诸如 Amazon Web Services (AWS) 之类的云提供商那里获得技术服务,例如计算能力、存储和数据库,而无需购买、拥有和维护物理数据中心及服务器。也就是说,计算能力作为一种商品,可以在互联网上流通,就像水、电、煤气一样,可以方便地取用,且价格较为低廉。云计算的6大好处:投入资本变成可变投入 增加速度和灵活性 从大规模经济中获益 无需再用数据中心和运维投入资金 无需在猜.原创 2020-07-07 17:39:58 · 1037 阅读 · 0 评论 -
机器学习之监督学习
线性回归构建模型假设线性回归中存在模型:对线性模型做如下处理:令,其中,w为权重(weight),b为偏差(bias),在线性回归模型中w和b分别形象的表示为直线的斜率和截距。目标函数:其中,????(????, ????)被称为cost function,对应的函数值为cost。cost值大小被用于评判模型在数据上的表现优劣。针对不同的问题选择不同的cost function来评价模型。这里选择的cost function是均方误差(mean squared error,即MS原创 2020-07-07 16:53:02 · 352 阅读 · 0 评论 -
机器学习入门基础笔记
线性代数和微积分基础基础公式向量基础:标量:是一个单独的数,一般用普通小写字母或者希腊字母表示a,α等。向量:一个同时具有大小和方向的几何对象[a1,a2,...aN],通俗来讲把数排列成一行或者一列就是向量。有行向量和列向量的分类,向量的模可以理解为向量的长度,向量的范数是向量的另一种的度量方式,向量的模=向量2范数。向量的1阶范数机器学习基础公式:矩阵计算矩阵的定义:由M*N个数排列成M行,N列的表矩阵的加法import numpy as npx.原创 2020-07-06 17:55:58 · 220 阅读 · 0 评论 -
visNetwork包 R 学习笔记
visNetwork包 R 学习笔记visNetwork 介绍Font-Awesome---让nodes更加美丽在visNetwork 图中使用IoniconsvisNetwork 介绍visNetwork 是R语言中用于制作网络图的包,本文用于记录使用案例和教程。Font-Awesome—让nodes更加美丽1.描述:添加Font-Awesome是为了让图形更美丽更专业。要注意使用Shi...原创 2019-06-13 10:36:51 · 3028 阅读 · 0 评论 -
tableau 入门学习笔记----文件和数据类型(4)
tableau对于加载完的数据会自动分配数据类型,一共有4个数据类型分别是:string.number,boolean和datetime。在满足数据转换的规则下,可以更改某些数据类型,值得一提的是用户必须指定计算字段的数据类型。tableau中常见的术语和意义tableau的数据源tableau本机连接器可以连接的数据源的类型:文件系统,如CSV,Excel等。关系系统如...原创 2019-05-05 14:22:38 · 1112 阅读 · 0 评论 -
tableau 入门学习笔记----认识导航功能和设计流程(3)
打开一个新的工作表,认识所tableau提供的功能集合。 File文件菜单:用于创建新的tableau工作簿,从本地和tableau服务器打开现有的工作簿,重要功能:工作簿区域设置和报表语言,粘贴工作表,导出打包工作簿选项。Data数据菜单:此菜单用于创建新的数据源还允许替换或升级现有数据源:新数据源;刷新所有提取来刷新表单;“编辑关系”选项用于定义多个数据源中用于链接的字段。...原创 2019-04-29 16:07:55 · 1262 阅读 · 0 评论 -
tableau 入门学习笔记---完成一个基础报告(2)
创建tableau报告的三个步骤:1.连接数据源2选择尺度和度量3应用可视化技术使用tableau自带的数据资源进行操作,即sample-superstore,如下图所示,可以看到有三份数据资源,为excel格式,名字分别为orders,people和returns。第一步,连接数据源:这里选择的是数据量较多的order数据,直接拖拽到上方即可。第二步,选择尺寸和度量...原创 2019-04-29 11:20:13 · 2767 阅读 · 0 评论 -
SQL小知识点(不断更新中)
我真的是一个很容易半途而废而且不会写题目的人,之前的关于SQL的博客零零散散,不如就出一个汇总帖,写一些小问题吧。1,SQL(mysql)必知必会(1)了解SQLhttps://blog.csdn.net/never0822/article/details/836236432,SQL(mysql)必知必会(2)检索数据https://blog.csdn.net/never0822/arti...原创 2019-04-13 21:33:06 · 131 阅读 · 0 评论 -
李航统计学 学习笔记 感知机
感知机模型定义(感知机)假设输入空间(特征空间)是属于,输出空间是y={+1,-1}.输入属于表示实例的特征向量,对应于输出空间(特征空间)的点,输出y表示实例的类别。由输入空间到输出空间的如下函数称为感知机.其中,w和b为感知机模型参数,w叫做权值或者权值向量,b叫做偏置,表示w和x的内积,sign是符号函数,即 感知机模型的假设空间是定义在特征空间中的所有线性分类模...原创 2019-02-12 16:03:18 · 246 阅读 · 0 评论 -
统计学基础
总体:研究对象的全体样本:从总体中随机抽样采样偏差:采样过程中没有达到足够的随机采样偏差常难以完全避免,只能够尽量避免误差error bar标准差 SD样本标准差 s标准差是一组数值自平均值分散开来的程度的可重复采样:在一个样本空间内进行多次可重复采样Bootstrap:每次采样出来的个体仍然参与下次采样,chang用于估算总体(如平均值)的置信区间。Boo...原创 2018-12-25 22:15:15 · 339 阅读 · 0 评论 -
学习笔记(二)数据挖掘概念与技术
1中心趋势度量:均值(mean)、中位数、众数截尾均值:丢掉高低极端值后的均值加权算术均值(加权平均):中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。用插值法计算中位数的近似值:median=其中是中位数区间的下界,N是整个数据集中值的个数,是低于中位数区间的所有区间的频率和,是中位数区间的频率,而width是中位数区间的宽度。众数(mode):...原创 2018-07-31 16:01:09 · 2133 阅读 · 0 评论 -
学习笔记(三)数据预处理之数据清理
数据预处理1概述。为了提高数据的质量,数据质量涉及准确性、完整性、一致性、时效性、可信性(反应多少数据是用户信赖的)和可解释性(反映数据是否容易理解)。数据预处理的主要步骤:数据清理、数据集成、数据归约和数据变换。数据清理:例程通过填写缺失的值,光滑噪声数据、识别或删除离群点,并解决不一致性来“清理”数据。数据集成:集成多个数据库、数据立方体或文件。数据归约:得到数据的简化表示,它小但能够...原创 2018-08-09 15:53:33 · 6940 阅读 · 0 评论 -
绘制统计图形展示数据
数据分析的三大类型:探索型(图表可视化)、验证性(假设检验)、预测型(机器学习)探索型数据分析1数据清理相辅相成。--->2根据图形用验证或预测支持验证数据分析及预测型数据分析:该建立怎样地假设,该使用什么特征和模型进行预测。常用图表:条形图、直方图、饼图、折线图、散点图、箱线图程序语句:seaborn.barplot(x="day",y="total_bill",data=ti...原创 2018-08-09 19:25:14 · 1911 阅读 · 0 评论 -
学习笔记(四)数据预处理之数据集成
数据集成:合并来自多个数据存储的数据。小心集成有助于减少结果数据集的冗余和不一致,有助于提高其后挖掘过程的准确性和速度。在数据集成时,模式集成和对象匹配需要技巧,涉及这实体识别问题。每个属性的元数据包括名字,含义,数据类型和属性的允许取值范围,以及处理空白,零或零值的空值规则。这样的元数据可以用来帮助避免模式集成的错误。在集成期间,当一个数据库的属性与另一个数据库属性匹配时,必须特别注意数...原创 2018-08-10 16:59:55 · 7270 阅读 · 0 评论 -
学习笔记(五)数据预处理之数据归约
数据归约:原始数据用数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性。也就是说,在归约后的数据集上挖掘将更有效,仍然产生相同的分析结果。1数据归约包括维归约、数量归约和数据压缩。维归约:减少所考虑的随机变量或属性的个数。方法有小波变换、主成分分析,把原始数据变换或投影到较小的空间。属性自己选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测或删除。数量归约:用替代的...原创 2018-08-15 11:32:41 · 17617 阅读 · 0 评论 -
学习笔记(六)数据预处理之数据变换与数据离散化
数据变换中,数据被变换或统一成适合于挖掘的形式,策略包括以下几种: (1)光滑:(2)属性构造(特征构造)(3)聚集(4)规范化(5)离散化(6)由标称数据产生概念分层反正还有很多,我也不想写了,等有机会再补吧。哒哒哒哒...原创 2018-08-16 17:30:28 · 2399 阅读 · 0 评论 -
回归方法(二):多项式回归告诉你身高和体重的关系
这是一个吸引眼球的题目,但是正是一篇正儿八经的干货。昨天学习了线性回归,今天依旧是用lm函数,不过期望实现的是多项式回归。对于一元多项式,若,多项式回归就变成了多元线性回归。 同样的对于多元多次多项式,若,同样的也可以用多元线性回归的方法来做。(多项式回归应尽少创建新的变量,尽量使用低次多项式,否则会增加模型复杂度,造成过拟合或欠拟合)用R实现多项式回...原创 2018-08-16 17:01:36 · 7698 阅读 · 1 评论 -
专门存放Python里面基础函数
1求绝对值abs()2四舍五入round()round(1.235)1round(1.235,2)#保留小数点后两位1.243幂函数pow()pow(2,3)84余数%5math模块import mathmath.floor(32.6)#取整并不是四舍五入32math.sqrt(4)#开方2.0还有很多 6numpy模块中函数7函数...原创 2018-08-24 14:49:51 · 291 阅读 · 0 评论 -
回归方法(三)logistic regression(数据集Titanic)
1logistic 分布:设X是连续随机变量,X服从logistic分布是指X具有以下分布函数和密度函数: 分布函数F(x)属于逻辑斯蒂函数,图形是一条S曲线,该曲线以点(,1/2)为中心对称,曲线在中心点附近增长速度较快,在两端增长速度较慢,形状参数的值越小,曲线在中心附近增长越快。二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(...原创 2018-08-30 11:36:44 · 4396 阅读 · 0 评论 -
SQL 语句的执行顺序跟其语句的语法顺序
SQL 语句的执行顺序跟其语句的语法顺序并不一致一般而言SQL 语句的语法顺序是:1.SELECT[DISTINCT]2.FROM3.WHERE4.GROUP BY5.HAVING6.UNION7.ORDER BY其执行顺序为:1FROM,2WHERE3.GROUP BY4.HAVING5.SELECT6.DISTINCT7.UNION8.ORDER BY...原创 2018-11-02 14:21:56 · 197 阅读 · 0 评论 -
SQL(mysql)必知必会(2)检索数据
以下讨论的DBMS全是mysql检索数据以world中city表为例检索单个列selectnamefromcity仔细对比会发现结果是无序的,跟原始表单中的顺序并不是互相对应的。结束SQL的语句,多条SQL语句必须以分号(;)分隔,MySQL如同多数DBMS一样,并不需要加上;,但是加上也没有坏处。但是如果使用的是mysql的命令行必须要加上;来结束SQL语句。...原创 2018-11-13 10:02:55 · 221 阅读 · 0 评论 -
SQL(mysql)必知必会(3)计算字段
计算字段:需要从数据库中检索出转换、计算或者格式化的数据,而不是直接检索出的数据。字段(field)基本上与列(column)的意思相同拼接(concatenate)字段多数DBMS使用+或||来实现拼接,而MySQL则是使用Concat()函数实现。select Concat (age,job,y)from bank order by age limit 50;#在 银行数据...原创 2018-11-13 11:20:56 · 333 阅读 · 0 评论 -
回归方法(四)KNN回归
分类与回归的区别:分类是判断对应类别而回归的输出是一个具体值。KNN基本算法思路:一个样本在特征空间中k个最相似(最邻近)的样本大多数属于同一个类别。(物以类聚)距离选取:euclidean,manhattan,minkonwskiK值可以基于方根误差(RMSE)确定,启发式的找到一个最优近邻数K。R中的实用包(FNN)实现案例KNN回归在R中可以使用FNN::knn.re...原创 2018-12-11 16:59:34 · 17843 阅读 · 13 评论 -
回归评价指标
RMSE(均方根误差)原创 2018-12-11 17:18:09 · 621 阅读 · 0 评论 -
李航《统计学》学习笔记(1)
第一章 统计学习方法概论统计学习的三要素:模型、策略和算法统计学习的特点:1建立在计算机及网络之上2数据驱动的学科3目的是对数据进行预测和分析。4以方法为中心,进行预测与分析。5交叉学科。 Herbert A. Simon对“学习”的定义:如果一个系统可以通过执行某个过程改进性能,这就是学习。学习对象:数据(data)数据的基本假设是具有一定的统计规律性。学习目...原创 2018-12-18 16:39:46 · 954 阅读 · 0 评论 -
DC学院 :数据可视化笔记(一)
一个程序员的自我修养:善用搜索引擎 google learn by practice数据可视化:无聊的数据有趣的图形化。可视化分类:(web)前端、(DA)数据分析、平面设计readlist:《写给大家看的设计书》、《最简单的图形与最复杂的信息》如何成为一个数据可视化工程师https://www.zhihu.com/question/49749071?sort=created...原创 2019-01-03 21:39:38 · 415 阅读 · 4 评论 -
学习笔记(一)数据挖掘概念与技术
1数据仓库与数据库:数据仓库是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的、以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称作联机分析处理。数据库:传统关系型数据库的主要应用。2数据挖掘功能特征化:一般的汇总所研究类(目标类),通常通过查询来收集对应于用户指定类数据。例如:在数据库上执行一个SQL查询来收集产品...原创 2018-07-25 17:32:13 · 1914 阅读 · 0 评论