自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

U R MINE

不为繁华易匠心

  • 博客(9)
  • 收藏
  • 关注

翻译 Kaggle:Home Credit Default Risk 特征工程构建及可视化(2)

    博主在之前的博客 Kaggle:Home Credit Default Risk 数据探索及可视化(1) 中介绍了 Home Credit Default Risk 竞赛中一个优秀 kernel 关于数据的探索及可视化的工作,本篇博客将围绕如何构建特征工程展开叙述,原文链接地址:Start Here: A Gentle Introduction1 简介    特征工程是指一个基因过程,可以...

2018-06-30 16:28:26 3351 2

原创 Python 实现图的深度优先和广度优先搜索

在介绍 python 实现图的深度优先和广度优先搜索前,我们先来了解下什么是“图”。1 一些定义顶点顶点(也称为“节点”)是图的基本部分。它可以有一个名称,我们将称为“键”。边边(也称为“弧”)是图的另一个基本部分。边连接两个顶点,以表明它们之间存在关系。权重边可以被加权以示出从一个顶点到另一个顶点的成本。例如,在将一个城市连...

2018-06-28 16:38:08 14503 5

翻译 Kaggle:Home Credit Default Risk 数据探索及可视化(1)

1 数据介绍    数据由Home Credit提供,该服务致力于向无银行账户的人群提供信贷(贷款)。预测客户是否偿还贷款或遇到困难是一项重要的业务需求,Home Credit将在Kaggle上举办此类竞赛,以了解机器学习社区可以开展哪些模式以帮助他们完成此任务。 有7种不同的数据来源: application_train / application_test:主要的培训和测试数据以及关于Home...

2018-06-27 20:38:04 9633 5

原创 lintcode 刷题 by python 部分链表题总结(2)

           本篇博客对最近做的链表的算法题做个简单的小结,主要描述题目和提供解题思路,具体代码见我的 github:https://github.com/MUSK1881/lintcode-by-python  36. 翻转链表 II(中等)描述翻转链表中第m个节点到第n个节点的部分样例给出链表1->2->3->4->5->nul...

2018-06-23 22:36:20 334

原创 基于CART的回归和分类任务

    CART 是 classification and regression tree 的缩写,即分类与回归树。        博主之前学习的时候有用过决策树来做预测的小例子:机器学习之决策树预测——泰坦尼克号乘客数据实例,不过在那篇博客中并没有详细阐述算法的原理,本篇博客以学习 CART 里面的思想为主。1 基于 CART 的回归1.1 定义概述    CART 假设决策树是二叉树,因此回归...

2018-06-22 23:23:47 765

原创 Python 中的堆 (heapq 模块)应用:Merge K Sorted Lists

        堆是计算机科学中一类特殊的数据结构的统称。堆通常是一个可以被看做一棵树的数组对象。在队列中,调度程序反复提取队列中第一个作业并运行,因为实际情况中某些时间较短的任务将等待很长时间才能结束,或者某些不短小,但具有重要性的作业,同样应当具有优先权。堆即为解决此类问题设计的一种数据结构。1 定义n个元素序列{k1,k2...ki...kn},当且仅当满足下列关系时称之为堆:(ki...

2018-06-22 14:32:43 780

原创 Python实现数组和链表的归并排序

    归并排序是一种稳定的排序,采用分而治之策略,可以用于顺序储存结构,也易于在链表上实现。其原理如下图:    算法时间复杂度为  O(nlogn),空间复杂度为 O(n)。1 在数组上实现def mergesort(seq): if len(seq)<=1: return seq mid=int(len(seq)/2) ...

2018-06-21 17:07:48 1891

原创 ArcGIS中的数据连接问题——数据类型不统一

    博主在研究空间数据分布的时候经常会用到 ArcGIS 进行空间数据可视化。但是有时候会由于数据类型不统一而无法将 csv 中的数据连接到底图上。比如在底图中的数据是字符串格式,而 csv 中是数字格式,出现这种情况,我们要么改变 csv 中的数据类型(似乎把 csv 中的数字格式改成字符串,连接底图的时候还是无效的?),要么在底图中重新构建能和 csv 中的相匹配的字段。    下面介...

2018-06-19 15:45:08 6551 1

原创 Kaggle:House Prices: Advanced Regression Techniques 数据预处理

    本博客是博主在学习了两篇关于 “House Prices: Advanced Regression Techniques” 的教程 (House Prices EDA 和 Comprehensive data exploration with Python )后的总结,重点在于探究如何分析真实数据的分布以及如何对数据进行预处理,同时强化 pandas 和 seaborn 包的操作技巧。  ...

2018-06-01 15:13:03 3377 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除