自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 面试遇到的问题

1.样本不均衡的处理方法?2.过采样和欠采样会导致什么问题?3.了解最优化算法和神经网络?4.决策树的代码实现?5.怎么样进行特征选择?6.逻辑回归的优缺点? 1.http://www.cnblogs.com/lianyingteng/2.http://cs231n.github.io/ ...

2018-07-10 10:24:11 143

原创 difference between StratifiedKFold and StratifiedShuffleSplit in sklearn

In KFolds, each test set should not overlap, even with shuffle. With KFolds and shuffle, the data is shuffled once at the start, and then divided into the number of desired splits. The test data is al...

2018-07-09 10:37:06 585

原创 OLS

import numpy as npimport timeimport matplotlib.pyplot as pltrng = np.random.RandomState(1234)x = 1 * rng.rand(100, 3)y = x.dot([[1], [5], [9]])err = rng.randn(100, 1)y = y + errn_sample = x...

2018-06-18 23:30:25 807

原创 Logistic

import numpy as npimport mathimport matplotlib.pyplot as pltdata1 = np.loadtxt("data1.txt", delimiter=",")data2 = np.loadtxt("data2.txt", delimiter=",")# print(data1[:6])x = data1[:, :2]y = da...

2018-06-15 17:57:05 479

原创 Titanic 竞赛

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.pipeline import Pipeline,make_pipelinefro...

2018-06-07 17:33:55 376

原创 housing price

import pandas as pdimport matplotlib.pyplot as pltimport numpy as np###################Get data#######################house_data = pd.read_csv("./housing.csv")# Divide by 1.5 to limit the numb...

2018-06-06 21:41:53 880

原创 SVM学习

    首先学习了上面july的专栏:支持向量机通俗导论(理解SVM的三层境界) ,后面再补上学习的成果通过如下问题,判断自己对SVM的理解程度:理论方面:为什么间隔(margin)大的划分超平面的泛化(generalization)能力更强?为什么可以用支持向量(support vector)的个数来估计模型的泛化能力?优化方面为什么我们要优化对偶(dual)问题而不是原(prime)问题?为什...

2018-05-24 09:45:41 106

原创 sort

#include<stdio.h>void bubble(int *a, int len){    int i, j,tmp;    for (j = len -1; j >0; j--){        for(i=0; i<j; i++) {            if (a[i] > a[i+1]){                tmp = a[i];    ...

2018-05-14 18:17:50 100

原创 机器学习性能指标(ROC曲线、AUC值)

参考:https://blog.csdn.net/zdy0_2004/article/details/449485111.为什么使用Roc和Auc评价分类器当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化...

2018-05-12 10:34:55 343

原创 preprocessing

import pandas as pdimport matplotlib.pyplot as pltimport numpy as nphouse_data = pd.read_csv("./housing.csv", )house_data.hist(bins=50, figsize=(15, 10))#house_data.plot(kind="scatter", x="longi...

2018-05-10 23:01:29 526

转载 C语言积累

1.大端小端区分大小端模式就是存储数据时,数据的高低位怎么存储在地址的高低位上。(位指的是bit,一个char类型数据有8位)大端模式:数据的高位,存放在地址的低位。(高位存低位,低位存高位)小端模式:数据的高位,存放在地址的高位。(高位存高位,低位存低位)我们的pc机一般都是小端模式,个人感觉这也更符合我们的习惯,在地位置的就是低位数据(1

2017-11-16 11:15:35 142

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除