Aries_楊小欣�-CSDN博客

原创假设检验

基本概念原假设： H0：原假设或零假设（null hypothesis），即需要去验证的假设；一般首先认定原假设是正确的，然后根据显著性水平选择是接受还是拒绝原假设。备择假设： H1：备择假设（alternative hypothesis），一般是原假设的否命题；当原假设被拒绝时，默认接受备择假设。两类错误：接受或拒绝H0，都可能犯错误I类错误——...

2020-01-04 17:49:15 2000

转载 K-mean算法

本文主要内容：1.k-means解决的问题；2.k-means原理介绍；3.k-means的简单实现。1.k-means解决的问题k-means算法属于无监督学习的一种聚类算法，其目的为：在不知数据所属类别及类别数量的前提下，依据数据自身所暗含的特点对数据进行聚类。...

2019-12-30 07:11:16 427

转载决策树

决策树决策树是一种自上而下，对样本数据进行树形分类的算法，既可以用于分类，又可以用于回归。决策树的构建过程也对应着对特征空间的划分：从根结点开始，计算该结点所有可能特征的信息增益（比）或基尼系数，选择信息增益（比）最大或基尼系数最小的特征作为结点的特征，由该特征的不同取值对训练数据进行分割，建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益（比）或基...

2019-12-30 06:57:37 271

转载参数估计的python实现

参数估计统计学有两大主要分支，分别是描述性统计学和推断统计学。描述性统计学用于描述和概括数据的特征以及绘制各类统计图表。总体数据，往往因为数据量太大而难以被获取，所以就有了通过较小的样本数据推测总体特性的推断统计学。推断统计学的一个研究方向就是用样本数据估算总体的未知参数，称之为参数估计。如果是用一个数值进行估计，则称为点估计；如果估计时给出的是一个很高可信度的区间范围，则称为区间估计。...

2019-12-30 06:48:27 1813

转载参数估计

参数估计包括点估计和区间估计两类。点估计点估计是以抽样得到的样本指标作为总体指标的估计量，并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。点估计(point estimate)是用样本统计量的某个取值直接作为总体参数的估计值。例如，用样本均值x直接作为总体均值μ的估计值，用样本方差s2直接作为总体方差σ2的估计值。点估计的方法有：矩估计法、顺序统计量法、最大似然法、最小...

2019-12-30 06:31:24 572

转载 python 抽样分布实践

本次选取泰坦尼克号的数据，利用python进行抽样分布描述，主要是提供实现代码，具体的理论知识不会过多涉及。（注：是否服从T分布不是进行t检验~）字段说明：Age:年龄，指登船者的年龄。Fare:价格，指船票价格。Embark:登船的港口。需要验证的是：1、验证数据是否服从正态分布？2、验证数据是否服从T分布？3、验证数据是否服从卡方分布？import pandas ...

2019-12-14 21:44:22 148

原创抽样分布

一、统计量样本均值：即在总体中的样本数据的均值，反映样本数据的集中趋势。样本方差：每个样本值与全体样本值平均数之差的平方值的平均数；方差是用来衡量随机变量和其数学期望（均值）之间的偏离程度。样本变异系数：变异系数又称为离散系数，定义为标准差与平均值之比，样本变异系数即样本数据的标准差与其均值之比。样本k阶中心矩：在概率论中，矩是用来描述随机变量的某些特征的数字，即求平均值；随机变量...

2019-12-14 21:38:50 2283

原创逻辑回归

概念：其原理是将样本的特征和样本发生的概率联系起来，即，预测的是样本发生的概率是多少。由于概率是一个数，因此被叫做“逻辑回归”。在线性回归算法的例子中，我们进行房价预测得到的结果值，就是我们预测的房价，是一个数值。但是我们在逻辑回归算法中，得到的预测值是一个概率，然后在概率的基础上多做一步操作，得到分类的结果。比如某银行使用逻辑回归做风控模型，先设置一个阈值0.5，如果得到它逾期的...

2019-12-14 20:46:33 223

原创梯度下降法

背景：在选择最优的函数时，我们的目标是让损失函数最小化，比如最小二乘法，但有些模型的损失函数非常复杂，无法得到参数估计值的表达式。因此，我们需要一种更普遍适用的方法求解最优函数——“梯度下降法”。宗旨：从损失值出发，去更新参数，且要大幅降低计算次数。通过导数告诉我们此时此刻某参数应该朝什么方向，以怎样的速度运动，能安全高效降低损失值，朝最小损失值靠拢。概念：梯度是向量，是多元函数的导数，指...

2019-12-14 19:58:19 166

原创关于Mac

配置环境变量：vi ~/.bash_profile返回上一个文件夹：cd../查看当前路径：pwd列出当前目录的内容：ls根目录：/ 包含：Library、users等家目录：/users/aries/...

2019-12-05 09:01:10 84

原创 python实现概率分布

概率分布概念：主要用以表述随机变量取值的概率规律。为了使用的方便，根据随机变量所属类型的不同，概率分布取不同的表现形式。分类：离散数据：数据由一个个单独的数值组成，其中的每一个数值都有相应概率。(伯努利分布、二项分布、几何分布、泊松分布)连续数据：数据涵盖的是一个范围，这个范围内的任何一个数值都有可能成为事件的结果。(正态分布、幂律分布)安装python的科学计算包sci...

2019-12-01 11:14:59 1050

原创机器学习第四章简单线性回归/多元线性回归/损失函数

理论部分：代码部分：from myAlgorithm.SimpleLinearRegression import SimpleLinearRegressionx = np.array([1.,2.,3.,4.,5.])y = np.array([1.,3.,2.,3.,5,])x_predict = np.array([6])reg = SimpleLin...

2019-11-30 11:51:08 816

原创处理分类型特征

类别型特征的原始数据一般都是字符串形式，只有决策树等少数模型可以处理字符串的输入，对于传统的模型来说，类别型特征必须经过处理转成数值型特征。处理方式有三种：一、序号编码：用于处理类别间具有大小关系的数据。二、独热编码：稀疏向量三、二进制编码：第一步：给每个类别赋予ID，第二步：对ID进行二进制编码。优点：维数少，节省空间。独热编码的python实现：from ...

2019-11-23 22:46:36 493

原创 sklearn中的数据预处理和特征工程

背景：由于特征之间的量纲不同，使得不同的指标之间没有可比性，不处于同一数量级的指标，无法进行分析。解决方案：将所有的数据映射到同一个尺度中。重要性：处于区间范围差异较大的特征，当采用随即梯度下降法学习时，学习速率相比同一区间更低。适用于：通过梯度下降法求解的模型，如：线性回归，逻辑回归，SVM，神经网络等。不适用于：树形结构一、最值归一化 normalization即...

2019-11-23 21:27:08 190

原创机器学习2——如何评价模型的好坏

理论部分：代码实现部分一、训练集与测试集的划分from sklearn.model_selection import train_test_splitX_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=666)二、分类结果的评价1.精度from...

2019-11-15 20:43:03 332

转载 KNN(K-Nearest Neighbor)——k近邻算法

skearn_learn 代码实现建模+预测：from sklearn.neighbors import KNeighborsClassifierknn_clf = KNeighborsClassifier(n_neighbors=3)knn_clf.fit(X_train,y_train)y_predict = knn_clf.predict(X_test)评价模型...

2019-11-15 11:44:44 227

原创统计量的python实现

一、读取数据（pandas库）data = pd.read_csv(path, encoding = "UTF-8")二、集中趋势的度量（numpy库）1.众数 from scipy.stats import modemode_num = mode(data)众数：mode_num[0][0] 个数：mode_num[1][0]))2.中位数data.m...

2019-11-15 09:53:54 530

1.定义memcached是高性能的分布式内存缓存服务器。它通过缓存数据库查询结果，减少数据库访问次数，以提高动态Web应用的速度、提高可扩展性。memcached的API使用32位元的循环冗余校验（CRC-32）计算键值后，将资料分散在不同的机器上。当表格满了以后，接下来新增的资料会以LRU机制替换掉。Memcached基于一个存储键/值对的hashmap。其守护进程（daemon）是用C写...

2019-11-06 17:48:50 127

转载余数哈希/一致性哈希(memcached分布式算法)

一下内容来自https://www.cnblogs.com/dhcao/p/10451936.html网站的伸缩性架构中，分布式的设计是现在的基本应用。在memcached的分布式架构中，key-value缓存的命中通常采用分布式的算法一、余数Hash 简单的路由算法可以使用余数Hash： node编号=HashCode(key)%服务...

2019-11-06 13:53:46 442

原创新概念3：集群/分布式

集群：集群主要是简单加机器解决问题，对于问题本身不做任何分解；用负载均衡服务器来协调各服务器。集群大部分都是各个服务器做相同的事情（多个厨师，若一台崩了，则均匀分配到其他服务器）。优点：扩展容易，多配置服务器即可，代码无需修改缺点：业务发展到一定程度时，集群的提速效果逐渐不明显； ...

2019-11-06 09:36:02 180

转载新概念2：分布式搜索 (倒排索引结构lucene.solr)

2019-11-05 14:36:22 235

原创新概念1.O2O B2C B2B C2C

O2O：线下商品展示在互联网上，引流——转化——消费——反馈——留存B2B：商家与商家在互联网上的商业合作与交易。B2C：商家对顾客，网上商店C2C：个人对个人...

2019-11-05 14:31:39 118

Aries_yang的博客