- 博客(13)
- 收藏
- 关注
原创 梯度下降 & 神经网络(RNN & LSTM)
梯度:用于更新神经网络的权重值梯度下降:随着传播推移,梯度逐渐减小,梯度消失时,模型会停止学习。short-term memory in RNN: 在递归神经网络中较早的层由于梯度太小而停止学习。由于不学习,这些层可以忘记在较长序列中记忆的内容,而保留短期记忆。...
2021-09-16 11:58:06
1511
原创 Alpha Fold 2
蛋白质结构预测写在前面一、what is embedding?二、基础知识1.蛋白质结构2.MSA(Multiple Sequence Alignment)三、研究蛋白质结构的重要性1.分析蛋白功能2.制药需求3.节约大量制药资金和时间4.进一步了解生命体结构和历史。四、AlphaFold11.分析蛋白功能五、AlphaFold21.算法实现写在前面开源链接: https://github.com/deepmind/alphafold论文链接:https://www.nature.com/artic
2021-07-30 17:53:32
2455
原创 Classifier 分类器:异常检测/离群检测常用算法
Classifier 分类器:异常检测/离群检测一、CBLOF(Cluster-Based Local Outlier Factor基于聚类+距离)二、KNN (K Nearest Neighbors)三、Isolation forest (孤立森林)四、Robust covariance一、CBLOF(Cluster-Based Local Outlier Factor基于聚类+距离)基于LOF思想,计算每个点p和其相邻点之间的密度来判断该点是否为异常点。距离越近则密度越高,距离越远则密度越低。
2021-07-25 18:06:10
996
原创 判断数据是否符合正态分布常用的function
判断数据正态性常用的function:1、QQ-PLOT(quantile-quantile plot): p-value观测值和p-value期望值的比较,用于判断统计模型的合理性。参考文献:QQ-PLOT原理详解import statsmodels.api as smsm.qqplot(diff_result_data_df.loc[:,'clicks_diff'], line='q')plt.title('click diff QQ-plot')观测值分布(蓝点)和正态分布线(红色直线
2021-06-13 14:47:30
720
原创 统计学相关知识点
统计学相关知识点一、卡方分布(chi-square distribution)二、使用步骤1.引入库2.读入数据总结一、卡方分布(chi-square distribution)n组相互独立的、服从正态分布的变量组成的分布。自由度为n。记为:Q~x^2(n)二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport.
2021-05-02 22:12:49
3068
原创 Hashing
Hashing一、What is hashing?二、常见的hashing method1.Division-remainder method:2.Folding method:3.Radix transformation method:4.Digit rearrangement method:三、hashing algorithm in AB test sampling:1. Collision problem:一、What is hashing?Hashing is to transform a.
2021-04-28 15:19:12
304
原创 synthetic control & incrementality test
Using Synthetic Controls:Feasibility, Data Requirements, and Methodological Aspects
2021-04-21 18:05:23
159
原创 移动平均
移动平均一、移动平均的主要分类1. 简单移动平均2. 加权移动平均3. 指数移动平均4. 分形自适应移动平均5. 赫尔移动平均一、移动平均的主要分类1. 简单移动平均2. 加权移动平均3. 指数移动平均4. 分形自适应移动平均5. 赫尔移动平均...
2021-04-18 23:25:05
1001
原创 常见statsmodels图形
QQ PLOTQQ-PLOT (quantile-quantile plot): p-value观测值和p-value期望值的比较,用于判断统计模型的合理性。
2021-04-05 18:28:38
495
原创 Power Analysis估算样本容量
Power Analysis 估算样本容量前言一、使用G*power计算统计检验力前言为什么要进行功效分析?统计功效指的是某检验能够正确的拒绝一个错误的虚无假设的能力,1-β。 为了确定研究的效应是否稳定。在假设检验中,如果将p<0.05作为拒绝H0的标准,那么得到p<0.05这个结果的统计功效决定了结果的可信度。同时,后验统计功效在样本量很小的情况下可信度也不高。(效应量大,inflated result)一、使用G*power计算统计检验力相关变量:样本量、效应量、alpha.
2021-03-20 23:40:27
3721
原创 时间序列
时间序列一、时间序列是什么?二、时间序列分类1.白噪声序列2.平稳非白噪声序列3.非平稳序列三. 时间序列主要模型1. ARIMA总结一、时间序列是什么?时间序列是指某种现象某一指标在不同时间上的各个数值,按照时间先后顺序排列而形成的序列。基于随机过程理论,用于动态数据处理。经典的统计分析都嘉定数据序列具有独立性,而时间序列分析则侧重研究数据序列的相互依赖关系。二、时间序列分类1.白噪声序列纯随机序列,没有预测价值。2.平稳非白噪声序列均值/方差都是常数:AR MA ARMA3.非平稳序列.
2021-03-16 20:28:20
3862
原创 AB Test & AA Test
AB Test & AA Test前言一、AB Test1. AB Test sampling2. AA Test3. AB Testing前言 AA Test: 在进行AB Test之前,对AB Test的sampling进行测试,分析两个group之间存在的本源性差异。AB Test: 为同一款产品设计两个不同的执行方案进行投放测试。方案中控制一个变量不相同,对照结果择优。一、AB Test1. AB Test sampling常见的sampling维度: Geo/ Time S
2021-03-04 22:21:37
3185
1
原创 python learning note
Python Learning Notepython基本概念python包Pandaspython基本概念python是一种解释型,面向对象,动态数据类型的高级程序设计语言python包PandasIn particular, pandas offers data structures and operations for manipulating numerical tables and time series:pd.Series// create a seriesIn [3]: s
2021-02-24 16:56:10
194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人