- 博客(12)
- 资源 (6)
- 收藏
- 关注
原创 交叉验证与学习曲线
一、交叉验证1. 数据集划分:sklearn.cross_validation.KFold(n, n_folds=3, shuffle=False, random_state=None) 参数说明: n: 要参与到交叉验证中来的元素个数,一般是全选(如下例中5) n_folds = 3: 要分成几堆,也就是K值,默认3,视机器性能进行选择,可选5、7、10等 shuff
2017-11-08 19:49:54 2956 1
原创 数据预处理之缺失值、异常值处理
缺失值的检查与处理应该来说是比较简单的,这篇先来说说异常值的检查与处理一、异常值的检查异常值的检查,最初我都是作图观察,把那些明显偏离了整体分布情况的点划归为异常点,这样的做法也带有比较强的主观性。这边补充一些用来判断异常值的统计学方法。1、基于正态分布的一元离群点检测方法假设有 n 个点 ,那么可以计算出这 n 个点的均值 和方差。均值和方差分别被定义为:
2017-11-08 10:27:45 5613
原创 特征选择
这篇主要整理一下,从kaggle的房价预测和泰坦尼克号两个比赛的tutorials 和 discuss学习到的方法一、单变量与目标关系1、连续型变量:点阵图var = 'GrLivArea'data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)data.plot.scatter(x=var, y='SaleP
2017-11-07 22:02:39 931
原创 数据预处理之归一化
关于归一化,网上的内容大部分都是在重复归一化的好处,但是之前被问到什么模型可以不做归一化?还有归一化具体的代码实现这边把这部分的内容也都一起总结一下一、什么时候可以不做归一化?什么时候可以不做归一化,这个问题其实很难回答,百度和谷歌后,也没得到满意的结果,这边我结合查到的比较靠谱的资料,写一下自己的理解。1. 数据属于同量纲的时,且分布较均匀。这是在知乎上看到的一点,但其实这种
2017-11-07 20:46:28 13157
原创 【sort+Linked-list专题】147. Insertion Sort List
由于一直都是调包侠,之前一直不重视排序的算法思想和手动实现,尤其是这类O(n^2)的排序算法这次遇到这个题,拖了很久,最后手写一版,总算还是通过了,一开始是TLE,加个判断(新插入的数据是否有序)就过了对比了一下排在前面的代码,看起来基本一样,但是时间差了几倍,有点奇怪/** * Definition for singly-linked list. * struct Lis
2017-11-07 10:11:47 191
原创 【sort 专题】179. Largest Number
Given a list of non negative integers, arrange them such that they form the largest number.For example, given [3, 30, 34, 5, 9], the largest formed number is9534330.Note: The result may be very
2017-11-06 11:13:04 253
原创 【sort专题】75. Sort Colors
Given an array with n objects colored red, white or blue, sort them so that objects of the same color are adjacent, with the colors in the order red, white and blue.Follow up:A rather st
2017-11-04 22:03:08 156
原创 【Linked-list专题-3】203. Remove Linked List Elements 19. Remove Nth Node From End of List
203. Remove Linked List Elements Remove all elements from a linked list of integers that have value val.ExampleGiven: 1 --> 2 --> 6 --> 3 --> 4 --> 5 --> 6, val = 6Return: 1 --> 2 --> 3 --
2017-10-25 08:36:51 180
原创 【Linked-list专题-2】237. Delete Node in a Linked List 206. Reverse Linked List
237. Delete Node in a Linked List 这题第一眼一看,很简单嘛。这不是一个基础操作吗,结果一看给的函数,参数是给到要删除的那个结点。处于惯性思维,觉得删除一个结点的操作是 pre->next = pre->next->next,于是一直想着一个单链表怎么去取到前一个结点。。。。后来才恍然大悟,直接把这个结点变成跟下一个结点一样的,然后把指针指向下下
2017-10-23 10:48:18 186
原创 【Linked-list专题-1】445. Add Two Numbers II 328. Odd Even Linked List
445. Add Two Numbers II之前在做第二题Add Two Numerbers就在想,如果给的链表不是反向排列,又该如何做呢,一时间实在没想出来。今天打算按照各项专题来刷题,先从弱项链表开始吧,结果一上来就看到了这题,正向排列链表相加,最后瞄了一下评论才想起,这不就是栈的使用场景吗!考虑到栈后就很容易实现了,这边C++的stack,pop和top是分开的两个函数
2017-10-22 10:22:33 340
原创 【LeetCode 4-5】4.Median of Two Sorted Arrays 5.Longest Palindromic Substring
4.Median of Two Sorted Arrays这题在网站上标注的难度为hard,实际则不难。一句话思路:因为两个数组已经排序了,只需从小到大取 (len1+len2)/2+1个数,组成一个新合并数组,保存最后的两位结果,然后根据len1+len2是奇数还是偶数取最后一位或者两位的平均数即可。这是我第一次写的代码: 时间复杂度应该是O(length)吧,空间都是常数,
2017-10-21 13:17:34 181
原创 【LeetCode1-3】1. Two Sum 2. Add Two Number 3.Longest Substring Without
0. 写在前面的话在第一篇文章开头前,先记录下开博客想法的来源吧在某次某度的面试中,考察到代码工程能力,结果有点意想不到的是竟然是在线直播写代码本来基础功不太扎实,自己写的时候都经常需要来回修修补补,这下有个盯着你一个一个字符的打出来,一直生怕出现一些很低级的拼写、语法、算法思路上的错误,有点紧张而且需要问到很详细的时间复杂度和空间复杂度,导致最后结果也很差。回想一下,最主要原
2017-10-21 09:53:49 186
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人