- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 数据预处理中常用检验方法汇总以及Python示例
统计检验方法假设检验步骤:给出原假设H0H_0H0,通常为积极肯定的一面,例如原数据集及符合某类分布F(X)F(X)F(X)。挑选统计量(该统计量服从分布F(X)F(X)F(X)),根据样本计算统计量的值。根据预先设定的显著性程度或者置信度,计算临界值,若统计值超出临界值则否定原假设;或者根据统计值计算p值(符合原假设的概率),若p值小于显著性程度则否定原假设。基于上述思想,可以先假...
2019-02-22 16:07:44 3318 1
原创 异常检测—IsolationForest算法简介以及Python实现
IsolationForest是一种适合高维数据集的异常值检测算法。核心思想通过随机切分数据集,异常点应该是容易被隔离的。算法简介随机选择一个特征,再在该特征下最大与最小值间随机选择一个值作为切分点,递归切分数据集,直到每个样本点被隔开,从而构建一颗类似CART分类树的随机树。重复构建多颗随机树。从根节点到叶节点的路径越长,代表该点越难被隔离,即该点越不可能是异常点。计算每个样本点路径...
2019-02-22 15:18:57 2891
原创 异常检测—LOF算法简介以及Python实现
参考资料https://dl.acm.org/ft_gateway.cfm?id=335388&ftid=2057&dwn=1&CFID=51876766&CFTOKEN=b2427295e6580441-94D5C0E4-E786-FC78-16E741661C2500A7
2019-02-21 20:26:48 11645 2
原创 机器学习基础理论笔记
二分类模型TP(ture positive):正确预测为正类的样本数 FP(false positive):错误预测为正类的样本数 TN(true negtive):正确预测为负类的样本数 FN(false negtive):错误预测为负类的样本数准确率(accuracy):预测正确的样本占总样本的比例TP+TNTP+FP+TN+FNTP+TNTP+FP+TN+FN\frac{TP+...
2019-02-03 16:29:51 383
原创 Python数据可视化—matplotlib以及seaborn基础
matplotlib的默认配置存储在rcParam字典中,在动态环境中可修改字典值改变默认配置,也可以通过修改配置文件matplotlibrc,永久更改默认配置,如下:import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 中文支持plt.rcParams['axes.unicode_min...
2019-02-03 16:26:00 1169
用Python写网络爬虫
2018-01-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人