u010016056-CSDN博客

原创面试遇到的问题

1.样本不均衡的处理方法？2.过采样和欠采样会导致什么问题？3.了解最优化算法和神经网络？4.决策树的代码实现？5.怎么样进行特征选择？6.逻辑回归的优缺点？ 1.http://www.cnblogs.com/lianyingteng/2.http://cs231n.github.io/ ...

2018-07-10 10:24:11 179

原创 difference between StratifiedKFold and StratifiedShuffleSplit in sklearn

In KFolds, each test set should not overlap, even with shuffle. With KFolds and shuffle, the data is shuffled once at the start, and then divided into the number of desired splits. The test data is al...

2018-07-09 10:37:06 629

原创 OLS

import numpy as npimport timeimport matplotlib.pyplot as pltrng = np.random.RandomState(1234)x = 1 * rng.rand(100, 3)y = x.dot([[1], [5], [9]])err = rng.randn(100, 1)y = y + errn_sample = x...

2018-06-18 23:30:25 859

原创 Logistic

import numpy as npimport mathimport matplotlib.pyplot as pltdata1 = np.loadtxt("data1.txt", delimiter=",")data2 = np.loadtxt("data2.txt", delimiter=",")# print(data1[:6])x = data1[:, :2]y = da...

2018-06-15 17:57:05 537

原创 Titanic 竞赛

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.pipeline import Pipeline,make_pipelinefro...

2018-06-07 17:33:55 420

原创 housing price

import pandas as pdimport matplotlib.pyplot as pltimport numpy as np###################Get data#######################house_data = pd.read_csv("./housing.csv")# Divide by 1.5 to limit the numb...

2018-06-06 21:41:53 938

原创 SVM学习

首先学习了上面july的专栏：支持向量机通俗导论（理解SVM的三层境界），后面再补上学习的成果通过如下问题，判断自己对SVM的理解程度：理论方面:为什么间隔(margin)大的划分超平面的泛化(generalization)能力更强?为什么可以用支持向量(support vector)的个数来估计模型的泛化能力?优化方面为什么我们要优化对偶(dual)问题而不是原(prime)问题?为什...

2018-05-24 09:45:41 147

原创 sort

#include<stdio.h>void bubble(int *a, int len){ int i, j,tmp; for (j = len -1; j >0; j--){ for(i=0; i<j; i++) { if (a[i] > a[i+1]){ tmp = a[i]; ...

2018-05-14 18:17:50 130

原创机器学习性能指标（ROC曲线、AUC值）

参考：https://blog.csdn.net/zdy0_2004/article/details/449485111.为什么使用Roc和Auc评价分类器当测试集中的正负样本的分布变换的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡，即正负样本比例差距较大，而且测试数据中的正负样本也可能随着时间变化...

2018-05-12 10:34:55 443

原创 preprocessing

import pandas as pdimport matplotlib.pyplot as pltimport numpy as nphouse_data = pd.read_csv("./housing.csv", )house_data.hist(bins=50, figsize=(15, 10))#house_data.plot(kind="scatter", x="longi...

2018-05-10 23:01:29 574

转载 C语言积累

1.大端小端区分大小端模式就是存储数据时，数据的高低位怎么存储在地址的高低位上。（位指的是bit，一个char类型数据有8位）大端模式：数据的高位，存放在地址的低位。（高位存低位，低位存高位）小端模式：数据的高位，存放在地址的高位。（高位存高位，低位存低位）我们的pc机一般都是小端模式，个人感觉这也更符合我们的习惯，在地位置的就是低位数据(1

2017-11-16 11:15:35 189