机器学习
文章平均质量分 50
awk_bioinfo
向前进。
展开
-
pillow Image.alpha_composite Image.blend Image.paste 图像合并方法汇总
pillow 图像合并转载 2022-07-14 11:55:55 · 618 阅读 · 0 评论 -
将pip源更换到国内镜像
将pip源更换到国内镜像用pip管理工具安装库文件时,默认使用国外的源文件,因此在国内的下载速度会比较慢,可能只有70KB/s。幸好,国内的一些顶级科研机构已经给我们准备好了各种镜像,下载速度可达34MB/s。其中,比较常用的国内镜像包括:(1)阿里云 http://mirrors.aliyun.com/pypi/simple/(2)豆瓣http://pypi.douban.com/simple/(3)清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/原创 2022-02-11 13:40:26 · 417 阅读 · 0 评论 -
LOESS 局部加权回归介绍
一般来说,两个变量之间的关系是十分微妙的,仅仅采用简单的直线、曲线参数方程去描述是不够的,所以这时候就需要非参数回归。关于非参数和参数方法的区别,就是在分析之前有没有对预测做一些限制,比如认为特征和响应变量之间具有线性关系,可以通过线性方程拟合,我们只需要求出方程的系数就是参数方法,比如之前提到的线性回归、多项式回归等等,而如果直接从数据出发进行分析就是非参数方法。正正因为没有限制,所以非参数方法拟合得到的曲线可以更好地描述变量之间的关系,不管是多么复杂的曲线关系都能拟合得到。loess(locally转载 2021-09-30 19:28:30 · 852 阅读 · 0 评论 -
pandas读入数据修改列名
1.读入数据:import pandas as pddf1 = pd.read_csv(‘target.csv’,encoding=‘utf-8’,header=1)df1 = pd.read_csv(‘target.csv’,encoding=‘utf-8’,header=-1) # 用于读取无表头CSV文件2.修改列名方法一:暴力修改列名,即重新命名列名df1.columns=[‘a’,‘B’,‘c’]方法二,利用rename修改(注需加入inplace=True才会在原数据中生效)d原创 2021-09-16 15:33:58 · 3910 阅读 · 2 评论 -
Keras Dense层详解
‘’’Created on 2021-03-25‘’’keras.layers.core.Dense(units, #代表该层的输出维度activation=None, #激活函数.但是默认 lineruse_bias=True, #是否使用bkernel_initializer=‘glorot_uniform’, #初始化w权重,keras/initializers.pybias_initializer=‘zeros’, #初始化b权重kernel_regularizer=None, #转载 2021-03-25 15:43:01 · 4725 阅读 · 0 评论 -
数据特征的偏度和峰度
偏度偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度<0)。峰度峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。随机变量的峰度计算方法为:随机变量的四阶中心矩与方差平方的比值。峰度包括正态分布(峰度值=3)转载 2021-02-04 14:31:58 · 4468 阅读 · 1 评论 -
机器学习三大神器:GBDT,XGBOOST和LightGBM
本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每一步结束后,增加分错的点的权重,减少分对的点的权重,这样使得某些点如果老是被分错,那么就会被“重点关注”,也就被转载 2021-02-03 16:55:07 · 507 阅读 · 0 评论 -
常用激活函数介绍
sigmod函数函数公式和图表如下图sigmod函数公式sigmod函数图在sigmod函数中我们可以看到,其输出是在(0,1)这个开区间内,这点很有意思,可以联想到概率,但是严格意义上讲,不要当成概率。sigmod函数曾经是比较流行的,它可以想象成一个神经元的放电率,在中间斜率比较大的地方是神经元的敏感区,在两边斜率很平缓的地方是神经元的抑制区。当然,流行也是曾经流行,这说明函数本身是有一定的缺陷的。当输入稍微远离了坐标原点,函数的梯度就变得很小了,几乎为零。在神经网络反向传播的过.转载 2021-02-02 09:53:24 · 742 阅读 · 0 评论 -
混淆矩阵优质可视化图
画图代码如下:#此脚本用于绘制混淆矩阵图from sklearn import metricsimport matplotlib.pyplot as pltfrom sklearn.metrics import confusion_matriximport itertoolsdef plot_confusion_matrix(cm, target_names, plot_names,原创 2021-01-28 20:06:13 · 1204 阅读 · 0 评论 -
Python计算皮尔逊相关系数
Python三种方法计算皮尔逊相关系数(Pearson correlation coefficient)0 皮尔逊系数1 python计算方法1.1 根据公式手写1.2 numpy的函数1.3 scipy.stats中的函数0 皮尔逊系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs)。用于衡量两个变原创 2020-06-19 17:07:55 · 9687 阅读 · 0 评论 -
linux服务器配置jupyter notebook 远程访问
下载pip3 install -i https://pypi.douban.com/simple jupyter 或直接 pip3 install jupyter生成配置文件jupyter notebook --generate-config --allow-root配置文件生成在:~/.jupyter/jupyter_notebook_config.py设置密码jupyter no...原创 2020-03-23 11:29:03 · 296 阅读 · 0 评论 -
R语言数据处理强悍包dplyr&reshape2&tidyr
R语言数据处理 dplyr&reshape2&tidyr 包详解dplyr:轻松地处理data.frame, data.table以及多种数据库为基础的数据,实现选择、变换、分组等plry:轻松地在vector, list, data.frame之间做分组变换,实现拆分、变换、合并的操作reshpae2:横向、纵向做数据变换非特别标注,默认为dplyr包准备工作tbl_...转载 2020-03-20 09:39:54 · 2115 阅读 · 0 评论 -
hadoop 2.7.3 版本下载
通过Apache 官方仓库可下载老版本:hadoop 2.7.3附上下载地址:https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/原创 2019-08-05 20:11:56 · 8063 阅读 · 4 评论