特征选择|模型解释|Pearson相关系数|JS散度|SHAP算法 本文主要介绍特征选择过程中常用的两种大方法:相关性分析和模型解释,相关性分析中介绍了Peaerson相关系数和JS散度的方法,模型解释中主要介绍了SHAP算法
jupyter notebook anaconda环境下查看|加载|更换内核 倘若我们发现使用pip安装相应包的虚拟环境和jupyter notebook的python解释器位置不同,这时我们需要将jupyter notebook的python解释器位置调整至虚拟环境中相应位置,有两种方法。在conda虚拟环境中使用pip安装相应package, 但是在jupyter notebook中加载该package时报错。此时,除去包安装出现问题以外,我们需要考虑是否是包安装位置与notebook引擎位置不一致。
决策树|随机森林 GBDT XGBoost|集成学习 本文首先介绍了决策树的数学背景,同时介绍集成学习相关的bagging boosting 模型理论,最后介绍了随机森林模型和两种最常用的随机森林模型算法GBDT 和XGBoost
ABtest假设检验知识|配对检验|比率检验|单向表-列联表检验 本文介绍了ABTest中两样本均值差检验的统计学原理,并给出具体实例进行两样本均值差检验,同时补充的配对检验|比率检验|单向表检验|列联表检验的相应方法
Exception in thread “main“ org.xerial.snappy.SnappyError: [FAILED_TO_LOAD_NATIVE_LIBRARY] null libsnappy.so
报错Unable to instantiate SparkSession with Hive support because Hive classes are not found.解决方法 java.lang.ClassNotFoundException: org.apache.spark.sql.hive.HiveSessionState;javax.jdo.JDOFatalInternalException: Error creating transactional connection factory
macos安装local模式spark c. 添加以下三条连接,使得spark能够找到对应的hadoop和相应的包。2. 打开sparkshell。然后执行并生效系统环境变量。然后执行并生效系统环境变量。可以看到很多输出,最后找到。b. 其次替换配置文件。
mac解决anaconda虚拟环境安装jupyter notebook问题 安装时使用 -m 参数能够指定该python解释器安装在当前默认的路径下,也就是我们目前打开的虚拟环境路径之下。因此为能够增加nbextension功能,需要进行如下操作。使用远端镜像比较慢,可以采用国内景象进行下载,相关的。在建立虚拟环境时,要指定使用python的版本。此时的jupyter notebook 亲测是。此时相应环境的python解释器将会被关联在。使用 -i 参数符我们便可以手动设置下载镜像。我的虚拟环境显示如下。
mac jupyternote崩溃恢复 dump文件就会出现在该路径下filename文件中。如果使用.py结尾,则可以通过pyCharm直接进行查看。jupyter notebook 同样支持历史dump,但是注意dump文件只限于本次会话中存在过的各种操作。使用方法是:在该会话中的任意一个jupyter notebook 交互界面的代码单元格中输入。所有经过python解释器解释过的内容都会记录在python历史文件中,位置在。然后可以通过vim操作进行查看。如果还不是很清楚,可以参照。
python matplotlib绘图参数总结 首先建立画布,建议使用,将所有的绘制任务都分配到ax对象上进行。注意,除非使用1*1的画布分区,否则此时ax将会是一个二维数组,需要以数组的形式获取不同位置的ax对象。
github分支处理stash,rebase,merge,fastforward以及分支代码提交主分支 Git采取的是增量式文件存储系统,类似于hadoop中的redo log 或者是MySql主从模式下的bin log,因此每一次提交实质上记录的是与上一次提交相比不同的记录。分为三个区的目的也非常明确,就是能够将本地未跟踪代码以及仓库版本代码进行隔离,并且能够极大程度上为本地未跟踪代码入库提供便利。,stash操作只能以快照的形式处理每一次压栈,并且每一次压栈所存储的快照之间是不能够合并的。是git软件未对代码进行跟踪的位置,我们修改代码就如同没有版本管理软件一般操作;暂存区(staging area)