学习
文章平均质量分 58
lizhouxin
自律更自由
展开
-
随机森林
Bagging和Boosting的概念与区别随机森林属于集成学习(Ensemble Learning)中的bagging算法。在集成学习中,主要分为bagging算法和boosting算法。我们先看看这两种方法的特点和区别。Bagging(套袋法)1 从原始数据中随机又放回的抽取K次,做K轮训练,得到K个训练集。(k个训练集之间相互独立,元素可以有重复)2 对于k个训练集,我...转载 2018-07-25 11:31:14 · 381 阅读 · 0 评论 -
nipype学习
nipype技术文档官方网站https://nipype.readthedocs.io/en/latest/documentation.html原创 2018-12-04 10:55:39 · 521 阅读 · 1 评论 -
python导入自定义函数
若在定义一个文件夹test,在该文件夹下添加test1.py(自定义),__init__.py(必须有,可以为空),test.py中定义def test2()函数。调用test2函数,首先将文件夹test添加到路径中,import syssys.path.append('文件路径')再调用from test.test1 import test2 ...原创 2018-12-05 19:58:47 · 2138 阅读 · 0 评论 -
shell脚本批量修改文件名称
示例 : filename = /home/mnt/test.txt用 ${ } 分别替换获得不同的值:${filename#*/}:拿掉第一条 / 及其左边的字符串:home/mnt/test.txt${filename##*/}:拿掉最后一条 / 及其左边的字符串:test.txt${filename#*.}:拿掉第一个 . 及其左边的字符串:test.txt${filename##...原创 2019-01-04 16:56:59 · 1776 阅读 · 0 评论 -
stacking解释
转:https://blog.csdn.net/qq_18916311/article/details/78557722 XGB模型,把train分train1~train5,共5份,用其中4份预测剩下的那份,同时预测test数据,这样的过程做5次,生成5份train(原train样本数/5)数据和5份test数据。然后把5份预测的train数据纵向叠起来,把test预测的结果做平均。...转载 2019-01-04 22:00:40 · 330 阅读 · 0 评论 -
多重假设检验与Bonferroni校正、FDR校正
总结起来就三句话:(1)当同一个数据集有n次(n>=2)假设检验时,要做多重假设检验校正(2)对于Bonferroni校正,是将p-value的cutoff除以n做校正,这样差异基因筛选的p-value cutoff就更小了,从而使得结果更加严谨(3)FDR校正是对每个p-value做校正,转换为q-value。q=p*n/rank,其中rank是指p-value从小到大排序后的次序。...转载 2019-01-09 17:02:53 · 11830 阅读 · 0 评论 -
Scikit-learn:模型评估Model evaluation
sklearn一般评估方法http://blog.csdn.net/pipisorry/article/details/52250760转载 2019-01-15 22:03:07 · 694 阅读 · 0 评论 -
贝叶斯岭回归
https://blog.csdn.net/qq_37353105/article/details/80612561?utm_source=blogxgwz9https://blog.csdn.net/qq_32742009/article/details/81485887转载 2019-03-07 10:38:06 · 5456 阅读 · 0 评论 -
GB、GBDT、xgboost理解
转载:https://www.cnblogs.com/wxquare/p/5541414.html GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类、回归、排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost,它们之间有非常紧密的联系,GBDT是以决策树(CART)为基学习器的GB算法,xgb...转载 2019-04-22 20:34:21 · 323 阅读 · 0 评论 -
2019腾讯广告算法大赛思路
作者:小凤仙er链接:https://www.jianshu.com/p/44a000657eff来源:简书简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。本次比赛与以往一般的比赛有一个最大的不同之处就是需要参赛者自己构建 [input & label] 。因此该比赛的标准作业流程应该如下:之所以第一步就要数据清洗的主要原因是因为如果在统计标签之后...转载 2019-04-29 17:17:14 · 1841 阅读 · 2 评论 -
贝叶斯线性回归方法解释与优点
贝叶斯线性模型是我最早对应用贝叶斯推断的关注点之一。在我们学习的过程中,最重要的部分也许就是将一个概念介绍给别人。本文是我介绍贝叶斯线性回归的一次尝试。我会对线性回归的频率派方法做一个简要的回顾,介绍贝叶斯解释(Bayesian interpretation),并查看将其应用于简单数据集的结果。回顾频率派线性回归线性回归的频率派视角可能是你所熟悉的、从学校学到的版本:模型假设反应变量(y,...转载 2019-05-13 15:58:23 · 936 阅读 · 0 评论 -
sklearn-learn特征选择
转:链接:https://www.jianshu.com/p/b3056d10a20f去掉方差较小的特征方差阈值(VarianceThreshold)是特征选择的一个简单方法,去掉那些方差没有达到阈值的特征。默认情况下,删除零方差的特征,例如那些只有一个值的样本。假设我们有一个有布尔特征的数据集,然后我们想去掉那些超过80%的样本都是0(或者1)的特征。布尔特征是伯努利随机变量,方差为 ...转载 2018-11-26 11:36:28 · 534 阅读 · 0 评论 -
scikit-learn使用基本模型介绍
转载:链接:https://www.jianshu.com/p/516f009c0875在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,我也想把这篇笔记一直更新下去...转载 2018-11-26 11:07:23 · 982 阅读 · 0 评论 -
机器学习实现之StackingRegressor
转载于:https://www.jianshu.com/p/cc748e4f29c5 原文地址: https://sebastianraschka.com/pdf/software/mlxtend-latest.pdf github:https://github.com/rasbt/mlxtendregressor.StackingRegressor集成学习中,bagging和bo...转载 2018-11-23 21:14:51 · 11585 阅读 · 5 评论 -
c++实现链表简单操作(单链表、循环链表与双向链表)
链表,对比数组可以节省空间,由数据域与指针域构成一个数据块,操作方便。1 单链表创建算法思路:申明一节点p 初始化一空链表 头指针指向NULL,即建立一个带表头节点的单链表 循环查找要插入地方或删除包括头插与尾插两种方式实现节点插入,c++模板方式构建结构体,简单实现插入与删除节点#include<iostream>using namespace std;t...原创 2018-07-25 11:30:38 · 258 阅读 · 0 评论 -
广度优先遍历(BFS),地牢逃脱问题,所有通路中最长
广度优先遍历,简称BFS。以大话数据结构中解释为例,找钥匙,小孩子不太可能将钥匙丢到大衣柜顶或厨房油烟机中去,深度优先遍历就是讲一个房间里面所有角落都彻查完毕,才去查找下一个房间,这未必是最佳方案。所以可以这样考虑,先将家里面所有房间简单看一遍,看看钥匙是不是放在最显眼的地方,再把每个房间小孩玩的最多的地方和其它地方找一找,直到找到为止。图的优先遍历类似树的先序遍历,而图的广度优先遍历就类似于树的...原创 2018-07-29 22:52:49 · 564 阅读 · 0 评论 -
最小生成树,普里姆(Prim)算法与克鲁斯卡尔(Kruskal)算法,C++实现
概论:图的定义,是由顶点的有穷非空集合和顶点之间边的集合组成,通常表示为G(V,E),G表示一个图,V是图中顶点集合,E是图中边集合。在程序中可通过邻接矩阵和邻接表表示,前者是一个二维数组,后者是有链表域的链表来表示,都是表示节点之间的联系。图中两顶点之间存在路径则表示是连通的,若顶点可以回到出发的顶点则表示存在环或者回路,不存在环则是简单路径,若任意两顶点是连通的,则表示该图是连通图。...原创 2018-07-31 20:37:24 · 1379 阅读 · 0 评论 -
TCP传输协议三次握手与四次挥手简介
TCP/IP及OSI模型 TCP/IP OSI 功能 TCP/IP协议族 应用层 应用层 为应用软件提供服务 Telnet、FTP、DNS、HTTP、DNS、SMTP 表示层 处理两个通信系统中交换信息的表示方式,主要有数据格式交换,数据加密数据解秘,数据压缩等 会话层 维护两个计算机之间的传输链接,保证点到点传输不中...转载 2018-07-27 20:42:32 · 294 阅读 · 0 评论 -
在Windows下安装XGBoost
XGBoost是Gradient Boosting算法的一种高级实现,在Kaggle competitions上崭露头角。下面就对XGBoost在Windows上的安装作一个介绍,因为XGBoost在Windows平台上的安装不是那么简单直接。我在实验室的电脑上(Windows 7,64 bits)通过这些步骤安装成功,希望能对后来人有所帮助。在linux平台下,直接可以用pip instal...转载 2018-08-09 23:16:16 · 1893 阅读 · 0 评论 -
c++,vector的erase循环删除
c++ 中Vector中,循环使用erase来删除某一个位置,将指向下一个位置,所以将其返回值依旧指向迭代器iter。(指针指向问题) vector<int>::iterator iter; vector<int>::iterator iter1; for (iter = nums.begin();iter != nums.end() - 1;)...原创 2018-08-10 17:10:05 · 3488 阅读 · 0 评论 -
正则表达式
c++正则表达式函数全解链接https://zh.cppreference.com/w/cpp/header/regex包括regex_match, regex_replace, regex_search等操作算法表达式全集字符 描述 \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个...转载 2018-08-07 16:34:07 · 115 阅读 · 0 评论 -
最短路径之迪杰斯特(Dijkstra)与佛洛依德(Floyd)算法-C++实现
求图中最短路径,可以依据图论中知识得到相应的最短路径知识,也有很详细的方法介绍,下面是以c++代码编程实现。以矩阵形式表示图中权值1 迪杰斯特(Dijkstra)//迪杰斯特最短路径算法template<typename T>void minTreePaths<T>::minTreeDikjstra(vector<vector<int&g...原创 2018-08-08 23:21:27 · 1026 阅读 · 0 评论 -
C++使用一次循环打印星号实心菱形-递归思想
#include<iostream>using namespace std;void Print(int from, int m){ for (int i = 0; i < (2 * from + 1) + m; i++) { if (i < m) cout << " "; else cout << "*"; }...原创 2018-09-05 15:59:26 · 3095 阅读 · 0 评论 -
理解机器学习中的偏差与方差
原文:https://blog.csdn.net/simple_the_best/article/details/71167786 学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irr...转载 2018-11-06 16:59:55 · 335 阅读 · 0 评论