Greatpanc-CSDN博客

翻译 XGBoost: A Scalable Tree Boosting System翻译

XGBoost: A Scalable Tree Boosting System源文档下载地址（时间仓促翻译不好见谅）摘要提升树是一种非常有效且被广泛使用的机器学习方法。在本文中，我们描述了一个名为XGBoost的有延展性的端到端的树提升系统，数据科学家们广泛使用该系统来实现许多机器学习挑战的最新成果。我们提出了一种新颖的稀疏数据感知算法用于稀疏数据，一种带权值的分位数算法(weigh...

2019-04-05 20:10:50 1492 1

原创 Kaggle比赛——预测未来销售（三）

预测未来销售——模型选择未完待续…

2018-12-02 22:58:49 5998 3

预测未来销售（二）——数据预处理与特征提取1、初始化环境2、数据读取过程2.1 销售数据2.1.1 销售数据读取2.1.2 统计不同ID（shop_id、item_id）下的月销量2.1.3 汇入item_categroy_id属性2.1.4 修正后的item_cat_id_fix属性2.2 测试数据2.2.1 测试数据读取2.2.2 将测试数据汇入测试集当中2.2.3 汇入item_cate...

2018-12-01 11:26:43 6737 5

原创 Kaggle比赛——预测未来销售（一）

预测未来销售——项目介绍1、数据来源2、数据集说明2、1 文件说明2、2 文件字段说明2、3 商店名称说明（Google翻译过来的）3、项目要求3、1 评估的要求3、2 提交文件格式1、数据来源预测未来销售该项目来源于kaggle中的一场比赛的赛题，比赛使用的数据是由日常销售数据组成的时间序列数据集，该数据集由俄罗斯最大的软件公司之一 - 1C公司提供。2、数据集说明数据集下载地址...

2018-11-30 15:01:22 14231 1

原创 TSP问题——ACO（蚁群算法）解法（附源代码）

TSP问题——ACO（蚁群算法）解法1、蚁群算法简介蚁群算法（Ant Colony Optimization, ACO），又称蚂蚁算法，是一种用来在图中寻找优化路径的机率型算法。它由Marco Dorigo于1992年在他的博士论文“Ant system: optimization by a colony of cooperating agents”中提出，其灵感来源于蚂蚁在寻找食物过程中...

2018-11-21 13:48:55 6141 3

原创 TSP问题——GA（遗传算法）解法（附源代码）

TSP问题——GA（遗传算法）解法1、遗传算法简介遗传算法（英语：genetic algorithm (GA) ）是计算数学中用于解决最优化的搜索算法，是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，这些现象包括遗传、突变、自然选择以及杂交等。在遗传算法里，优化问题的解被称为个体，它表示为一个变量序列，叫做染色体或者基因串。染色体一般被表达为简单的字符串或数...

2018-11-13 21:23:42 8725 2

原创 python实现Excel文件读取的程序（附源代码）

python实现Excel文件读取的程序最近帮一个朋友用python写了一个读Excel程序操作的程序，具体要求为：读取两个Excel文件，根据其中某个特征的特征值对这两个文件进行取交集操作，生成三个Excel文件，第一个Excel文件为这两个文件的公共集，第二个Excel文件为第一个Excel文件除去公共项后的Excel文件，第三个Excel文件为第二个Excel文件除去公共项后的Exce...

2018-11-10 15:05:50 21087

原创蚁群算法介绍

2018-10-31 22:07:15 5466

原创基于蚁群算法解决多模式资源约束项目调度问题（附源代码）

基于蚁群算法解决多模式资源约束项目调度问题最近选修了张超勇教授的项目管理学，最后这门课留下了一门大作业，这里我选做是资源约束下的项目调度问题，通过使用元启发式的蚁群算法求解了这个问题，由于时间比较仓促这个算法还有很多可以优化的地方，后面有时间我在将其优化，下面是pose出了这个问题是什么以及我的蚁群算法的实现过程，并附录python源码。如果不了解什...

2018-10-31 21:45:12 18246 25

原创七七八八讲算法之回溯法、分支限界法和动态规划解决TSP问题（附源代码）

最近选了王波兴教授的计算几何与算法设计的课程，觉得王老师的课程讲的很好，就认真的听了一下，这门课最后要做一个PPT，讲解用这个学期讲的几种算法解决旅行商问题，下面就是我做的PPT。程序实现的源码（Python）在：https://github.com/Greatpanc/-TSP- 最后关于启发式的几种常见算法，如蚁群算法、遗...

2018-10-16 15:18:44 8373 4

原创机器学习总结之——Dummy Coding(哑变量)

机器学习总结之——Dummy Coding1、哑变量的概念在构建回归模型时，如果自变量X为连续性变量，回归系数β可以解释为：在其他自变量不变的条件下，X每改变一个单位，所引起的因变量Y的平均变化量；如果自变量X为二分类变量，例如是否饮酒（1=是，0=否），则回归系数β可以解释为：其他自变量不变的条件下，X=1（饮酒者）与X=0（不饮酒者）相比，所引起的因变量Y的平均变化量。但是，当自...

2018-10-02 10:55:38 31644 5

原创机器学习总结之——KD树小白理解

机器学习总结之——KD树小白理解 KD树是k-dimension树的简称。KD树是一种树形的数据结构，目的是为了提高数据查找的效率。可以把KD树类比为一维的折半查找，只不过它是针对多维数据的。一维折半查找需要把数据先排序，做成查找表，或是做成二叉查找树，即每个节点左子树均小于节点值，而右子树均大于节点值。对多维的情况下，就需要构造KD树了。小白理解：KD树就是一棵二叉树的变形，它是将二叉树对...

2018-09-29 11:36:45 1046

原创机器学习总结之——标准化与归一化的区别

机器学习总结之——标准化与归一化的区别1、标准化简单来说，标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。公式如下：x′=x−XS（其中X代表样本均值，S代表样本方差）x&amp;#x27;=\frac{x-X}{S}（其中X代表样本均值，S代表样本方差）x′=Sx−X（其...

2018-09-29 09:45:04 3103

原创机器学习总结之——各种距离汇总

机器学习总结之——各种样本距离汇总一般在机器学习模型中会涉及到衡量两个样本间的距离，如聚类、K-Nearest Neighbor等，使用的距离可以使欧式距离，也是可以是其它距离，本文对各种距离度量的表示法进行了汇总。1、欧氏距离最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 x = (x1,…,xn) 和 y = (y1,…,yn) 之间的...

2018-09-25 21:23:08 5752

原创机器学习总结之——线性分类器与非线性分类器

机器学习总结之——线性分类器与非线性分类器1、线性分类器1.1线性分类器的定义线性分类器就是用一个“超平面”将正、负样本隔离开，如：（1）二维平面上的正、负样本用一条直线来进行分类；（2）三维立体空间内的正、负样本用一个平面来进行分类；（3）N维空间内的正负样本用一个超平面来进行分类。1.2常见的线性分类器常见的线性分类器有：LR，贝叶斯...

2018-09-17 09:10:55 14525

原创机器学习总结之——机器学习项目完整流程

机器学习总结之——机器学习项目的完整流程1、分析项目需求，明确具体问题进行一个项目前，首先要做的是要分析项目各个需求，以及明确各个需求所对应的具体问题并将其抽象成一个个数学问题，将项目过程转换成数学建模过程。 PS：这里的抽象成数学问题，是指这个项目中为我们提供或者我们能通过现有手段获取到什么样的数据（即我们能得到什么样的数据）；目标是一个分类、回归还是一个聚类问题，如果...

2018-09-15 16:12:41 2638

原创机器学习总结之——如何防止过拟合

**机器学习总结之——如何防止过拟合重点内容 ** 通常过拟合由以下三种原因产生：1. 假设过于复杂；2. 数据存在很多噪音；3. 数据规模太小。过拟合的解决方法通常有：1. early stopping；2. 数据集扩增；3. 正则化；4. Dropout。 1、Early stopping 1.1 定义对模型的训练过程就是对模型参数的进行学...

2018-09-14 19:57:45 1198

机器学习&数据挖掘