- 博客(11)
- 资源 (2)
- 收藏
- 关注
原创 yield的说明
参考文章:https://blog.csdn.net/mieleizhi0522/article/details/82142856/yield可以简单的看成为一个return,可以和next()方法搭配起来使用,一次弹出一个值。下面的(res = yield 4)步骤并不会将4赋值给res变量,程序在这一步时是直接弹出数值4。要想在生成器里对变量进行赋值,可以采用send操作。参考代码如下:def foo(): print("starting...") while True:
2020-06-29 21:55:54 207
原创 数值型数据的均值检验
-------------本章内容来源:python统计分析第八章----------------------------标准差和标准误的概念:标准差定义为各测量值误差的平方和的平均值的平方根,故又称为均方误差;标准误反映的是样本均数之间的变异(即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度)。也表示的是抽样的误差。因为从一个总体中可以抽取出多个样本,每...
2019-11-20 16:40:48 610
原创 相关性分析——皮尔逊
1.皮尔逊相关系数r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,...
2019-11-20 13:22:48 25962
原创 假设检验
对数据进行视觉上和定量的正太检验。1.之前,计算机能力有限时,数据分析常用步骤:你制定一个假设,收集你的数据,然后接受或拒绝这个假设。2. 现在是一个高度交互的过程。查看数据,解释数学模型,然后确定模型的最佳拟合参数。3. 从以下几个步骤开始:a. 视觉上检查数据b. 找到极端样本仔细检查c. 确定数据类型,如果是连续的,看是否是正态分布。4 离群值检验:通常定义是离样本均值超...
2019-11-20 13:19:10 370
原创 决策树
1.常见的决策树有哪些?2.各自的特点?3.剪枝怎么实现?在线公式编辑:https://codecogs.com/latex/eqneditor.php信息熵计算:https://blog.csdn.net/memray/article/details/443519131.常见的决策树有:ID3,C4.5,CADT.ID3:ID3的节点选择采用的是信息增益,信息增益是衡量信息熵降低的...
2019-08-08 15:55:41 223
原创 聚类总结
概念:聚类是针对给定的样本,依据它们特征的相似度与距离,将其归并到若干个‘类’或‘簇’的数据分析问题。聚类的目的是通过得到的类或簇来发现数据的特点或对数据进行处理,在数据挖掘、模式识别等领域有着广泛的应用。...
2019-08-01 10:27:42 278
原创 K-means与K-means++
参考:https://blog.csdn.net/u013129109/article/details/80063111https://blog.csdn.net/sorawa/article/details/6630729https://blog.csdn.net/u011204487/article/details/59624571原始k-means算法:1. K-means算法优点...
2019-07-31 17:01:15 1126
原创 有关PDF
高斯分布概率密度函数(probability density function,PDF)和累积分布函数(CDF)1.累积分布函数是指随机变量X小于或等于x的概率。2.统计检验中经常要用到p-value,用分布的PDF从0开始进行积分。------------------关于PDF和PMF的关系:参考:https://www.zhihu.com/question/36853661计算方法...
2019-07-31 14:24:03 1369
转载 回归问题与分类问题常用损失函数对比
参考文章:https://www.cnblogs.com/massquantity/p/8964029.html叙:损失函数的一般表示为 L(y,f(x)),为了便于不同损失函数的比较,常将其表示为单变量的函数,在回归问题中这个变量为y−f(x),在分类问题中则为yf(x)。1.回归问题的损失函数回归问题中y和f(x)皆为实数∈R,因此用残差 y−f(x)来度量二者的不一致程度。常见的回...
2019-07-30 14:02:03 1695
原创 XGBoost的注意点
注意:xgboost的切分操作和普通的决策树切分过程是不一样的。普通的决策树在切分的时候并不考虑树的复杂度,而依赖后续的剪枝操作来控制。xgboost在切分的时候就已经考虑了树的复杂度,就是那个γ参数。所以,它不需要进行单独的剪枝操作。Adaboost与GBDT两者boosting的不同策略是两者的本质区别。Adaboost强调Adaptive(自适应),通过不断修改样本权重(增大分错...
2019-07-29 16:53:39 255
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人