机器学习
allen sue
关注:数据从业者,爱好并致力于分析挖掘
邮箱:fish-work@163.com
展开
-
模型评估指标
分类:混淆矩阵/列联表二分类:准确率,召回率,AUC(ROC曲线下的面积),logloss(对预测概率的似然估计),accuracy(概率阈值影响该指标),precision(概率阈值影响该指标)TPTPTP:正预测为正(预测正确)TNTNTN:负预测为负(预测正确)FPFPFP:负预测为正FNFNFN:正预测为负预测结果为正的准确率:准确率/PPV=TPTP+FP\text{准确率/PPV} = \frac{TP}{TP + FP}准确率/PPV=TP+FPTP正样本预测的准确率:召回原创 2020-12-28 14:52:42 · 267 阅读 · 0 评论 -
keras layers笔记
文章目录base`Layer.get_weights()`:Returns the current weights of the layer`Layer.set_weights(weights)`: Sets the weights of the layer, from Numpy arrays.`Model.get_config()`: config of the layer`Layer.add_loss(losses, **kwargs)`: Add loss tensor(s), potentiall原创 2020-09-30 16:24:11 · 3319 阅读 · 0 评论 -
建模之常见激活函数(Keras,tf2)
神经网络常见激活函数序号激活函数表达式优点缺点Kerastf21sigmoidy=11+e−x=tanh(x/2)+12y=\frac{1}{1+e^{-x}}=\frac{\text{tanh}(x/2)+1}{2}y=1+e−x1=2tanh(x/2)+1属于(0,1)(0, 1)(0,1),即指定区间,又属于累计概率范围指数计算成本不低;梯度弥散&爆炸keras.activations.sigmoidtf.nn.sigmoid2elu.原创 2020-08-18 22:36:41 · 581 阅读 · 0 评论 -
建模之常见优化器(Keras)
序号优化函数概述场景Keras1SGD训练速度快容易陷于局部最优解keras.optimizers.SGD:可设置动量和nesterov参数sgd2Adagrad(自适应学习率)适用于数据稀疏或者分布不平衡的数据集中收敛速度快keras.optimizers.Adagrad3RMSprop(自适应学习率)修改了AdaGrad的梯度积累为指数加权的移动平均,使得其在非凸设定下效果更好。避免了学习率越来越低的的问题,而且能自适应地调节学习率深度神经网络...原创 2020-08-18 21:21:01 · 840 阅读 · 0 评论 -
建模之常见模型评估指标(Keras, Sklearn, R)
相同算法请见建模之常见损失函数序号概况表达式场景kerassklearnR1分类准确率预测正确个数的占比分类keras.metrics.Accuracyaccuracysklearn.metrics.accuracy_scoreAccuracy2二分类准确率同上分类keras.metrics.BinaryAccuracykeras.metrics.binary_accuracybinary_accuracy3多分类准确率同上分类ke原创 2020-08-16 22:24:43 · 2474 阅读 · 0 评论 -
建模之常见损失函数(Keras, Sklearn, R)
序号概况表达式场景sklearnkerasR1交叉熵H(p,q)=∑x(p(x)×log(1q(x)))=∫xP(x)×log(Q(x))dxH(p, q)=\sum_x(p(x) \times \text{log}(\frac{1}{q(x)})) = \int_x P(x) \times \text{log}(Q(x))\mathrm{d}xH(p,q)=∑x(p(x)×log(q(x)1))=∫xP(x)×log(Q(x))dx−log(p(y∣y^))=−(y...原创 2020-08-16 13:13:50 · 1199 阅读 · 0 评论 -
PyTorch Documentation
install packagesDocumentation官网GithubPyTorch中文文档ApacheCN原创 2020-08-08 12:17:58 · 348 阅读 · 0 评论 -
傅里叶分析 & 应用
傅里叶级数:Fourier Serie傅里叶级数针对周期性函数:任意周期函数都可写成三角函数之和公式f(x)=a0×1+∑i=1∞(ai×cos(2×π×iT×x)+bi×sin(2×π×iT×x))=∑k=−∞∞(gk(x))f(x) = a_0 \times 1 + \sum_{i=1}^{\infty}(a_i \times cos(\frac{2 \times \pi \times i}{T} \times x) + b_i \times sin(\frac{2 \times \pi \原创 2020-08-01 14:36:06 · 1595 阅读 · 0 评论 -
Sklearn之特征工程&建模
特征工程sklearn建模说明特征工程来自于自己的总结,参考了使用sklearn做单机特征工程sklearn来源于网络以上如有侵权,请联系我原创 2020-07-26 11:03:19 · 245 阅读 · 0 评论 -
Box-Cox变换
定义:一种广义幂变换方法,是统计建模中常用的一种数据变换目的用于连续变量不满足正态分布的情况Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性改善数据的正态性、对称性和方差相等性,但方差齐性的问题不一定会消失,做过之后仍然需要做方差齐性的检验,看是否还需要采用其他方法公式y(λ)={yλ−1λλ≠0ln(y)λ=0y(\lambda) =\begin{cases}\frac{y^{\lambda} - 1}{\lambda} & \lamb..原创 2020-07-24 11:46:10 · 3708 阅读 · 0 评论 -
神经网络常见激活函数(包含tensorflow2的api)
参考文献来源:一文概览深度学习中的激活函数从ReLU到GELU,一文概览神经网络的激活函数eat_tensorflow2_in_30_dayssigmoidAPI:tf.nn.softmaxSigmoid又叫作 Logistic 激活函数y=11+e−xy = \frac{1}{1 + e^{-x}}y=1+e−x1缺点输出值y不以0为中心exp的计算成本相对来说不低梯度消失:输出接近0或1的神经元,其梯度接近0,故权重不会更新或更新极小,并且,与此类神经元相连的神经元的权重原创 2020-05-22 17:59:36 · 517 阅读 · 0 评论 -
tensorflow2之数学运算
官方API大部分数学运算:tf.math随机数:tf.random矩阵运算:tf.linalg乘法:tf.matmul(实际上是tf.linalg.matmul),等同于@转置:tf.transpose()生成对角阵:tf.linalg.diag:可定制对角线上一行/下一行等信息获取对角阵元素:tf.linalg.diag_part逆:tf.linalg.inv()求迹:tf.linalg.trace()范数:tf.linalg.norm()行列式:tf.linalg.det()原创 2020-05-20 17:46:16 · 2048 阅读 · 0 评论 -
tensorflow2之数据管道Dataset
原则数据量不大,直接入内存计算即可数据量过大,无法一次性载入内存,需要分批读入:tf.data的API构建数据输入管道构建numpy: ds = tf.data.Dataset.from_tensor_slices((['train_x'], ['train_y']))pandas:同上df.to_dict('list')generator:def generator(): for features, labels in ds: yield (f原创 2020-05-20 16:15:47 · 1192 阅读 · 0 评论 -
tensorflow2之维度变换与合并分割
维度变换tf.reshape :改变张量形状a = tf.random.uniform(shape=[1,3,3,2],minval=0,maxval=255,dtype=tf.int32)# 将原tensor reshape为3行6列的tensortf.reshape(a,[3,6])tf.squeeze:减少维度,去掉一维a = tf.random.uniform(shape=[1, 2, 1, 3, 1, 1],minval=-10, maxval=10)tf.squeeze.原创 2020-05-18 17:55:31 · 2183 阅读 · 0 评论 -
tensorflow2之切片
tf.gather:按axis和indices获取索引对应的tensora = tf.Variable([[1,2,3,4,5], [6,7,8,9,10], [11,12,13,14,15]])idx_a = tf.Variable([0, 2])tf.gather(a, idx_a)# 返回: [[1,2,3,4,5], [11,12,13,14,15]]tf.gather(a, idx_a, axis=1)# 返回: [[1,3], [6,8], [11,13]]tf.ga.原创 2020-05-18 17:16:06 · 294 阅读 · 0 评论 -
二值分类器的优劣判断
ACCTP: 判定正确的样本FP:判定错误的样本FN:应该判断正确,而没有判断/没有抽中的样本TP + FP:判断的总样本/抽取的总样本TP + FN:正确样本的总量准确率 :P=TPTP+FPP = \frac{TP}{TP + FP}P=TP+FPTP召回率(recall):R=TPTP+FNR = \frac{TP}{TP + FN}R=TP+FNTPF1值:2F1=...原创 2019-12-09 16:57:29 · 886 阅读 · 0 评论 -
【转载】Python 和 R 数据分析/挖掘工具互查
转载原文数据读取db connector| 类别 | Python | R || ------------ | ----------- | ------------ || MySQL | pymysql | RMySQL |io统计类描述性统计假设检验时间序列生存序列机器学习类回归分类器SVM基于...转载 2019-12-09 14:56:08 · 230 阅读 · 0 评论 -
线性回归原理与code
最小二乘原理 代码原创 2019-04-20 16:57:51 · 156 阅读 · 0 评论