机器学习
Douhh_sisy
这个作者很懒,什么都没留下…
展开
-
用Numpy写一个Softmax
softmax计算exponential按行求和每一行都要除以计算的和m = np.random.rand(10,10) * 10 + 1000print(m)[[ 1008.64304012 1001.25079229 1006.81896868 1005.89015258 1008.8915297 1001.84923866 1005.53509734 ...原创 2018-06-03 15:41:54 · 4344 阅读 · 1 评论 -
决策树模型参数释义
转自https://blog.csdn.net/qq_16000815/article/details/80954039'''scikit-learn中有两类决策树,它们均采用优化的CART决策树算法。'''from sklearn.tree import DecisionTreeRegressor'''回归决策树'''DecisionTreeRegressor(criterio...转载 2019-01-18 17:04:07 · 4755 阅读 · 0 评论 -
流行的机器学习数据集
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。IrisIris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,V...转载 2019-01-18 17:00:29 · 336 阅读 · 0 评论 -
sklearn实战:对文档进行聚类分析(KMeans算法)
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom time import timefrom sklearn.datasets import load_filesprint("loading documents ...")t = time()docs = load_files('dat...原创 2018-06-10 14:54:22 · 3226 阅读 · 1 评论 -
sklearn实战:KMeans算法
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import make_blobsX, y = make_blobs(n_samples=200, n_features=2, cen...原创 2018-06-10 14:51:10 · 1182 阅读 · 0 评论 -
sklearn实战:文档分类预测(朴素贝叶斯算法)
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom time import timefrom sklearn.datasets import load_filesprint("loading train dataset ...")t = time()news_train = load_...原创 2018-06-09 21:56:11 · 1584 阅读 · 0 评论 -
sklearn实战:SVM(线性核函数,多项式核函数,高斯核函数比较)
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npdef plot_hyperplane(clf, X, y, h=0.02, draw_sv=True, title='hype...原创 2018-06-08 14:25:55 · 23306 阅读 · 0 评论 -
kaggle:预测泰坦尼克号幸存者(决策树算法,网格搜索模型参数调优)
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pddef read_dataset(fname): # 指定第一列作为行索引 data = pd.read_csv(fname, index_col=0) #列索引为csv文件第一行 ...原创 2018-06-07 22:13:53 · 3423 阅读 · 0 评论 -
bagging,random forest,boosting(adaboost、GBDT),XGBoost小结
Bagging从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping(有放回)的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(我们这里假设k个训练集之间是相互独立的,事实上不是完全独立)每次使用一个训练集得到一个模型,k个训练集共得到k个模型。但是是同种模型。(注:k个训练集虽然有重合不完全...原创 2018-06-07 20:34:02 · 763 阅读 · 0 评论 -
Kaggle:Predicting a Biological Response
地址戳我 # 基本CSV读写操作 # 我们需要读取给定的训练数据,再进行后续的数据(特征等)处理 def read_data(file_name): f = open(file_name) #ignore header f.readline() samples = [] target =...转载 2018-06-07 15:58:20 · 647 阅读 · 0 评论 -
Kaggle:San Francisco Crime Classification
比赛地址https://www.kaggle.com/c/sf-crime 这里用logistic regression来完成这个预测问题。 # 基本CSV读写操作 # 我们需要读取给定的训练数据,再进行后续的数据(特征等)处理def read_data(file_name): f = open(file_name) #ignore header ...转载 2018-06-07 15:54:12 · 897 阅读 · 0 评论 -
sklearn实战:乳腺癌检测(逻辑回归算法)
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np# 载入数据from sklearn.datasets import load_breast_cancercancer = load_breast_cancer()X = cancer.datay = cancer.targetprint('...原创 2018-06-07 15:35:31 · 8402 阅读 · 1 评论 -
sklearn实战:房价预测(线性回归)
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import load_bostonboston = load_boston()X = boston.datay = boston.targetX.shape(506, 13)X[0]...原创 2018-06-07 10:15:55 · 2202 阅读 · 0 评论 -
sklearn实战:使用线性回归算法拟合正弦函数
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npn_dots = 200X = np.linspace(-2 * np.pi, 2 * np.pi, n_dots)Y = np.sin(X) + 0.2 * np.random.rand(n_dots) - 0.1X = X.reshape(-...原创 2018-06-07 10:14:20 · 5162 阅读 · 0 评论 -
sklearn实战:使用knn进行回归拟合
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np# 生成训练样本n_dots = 40X = 5 * np.random.rand(n_dots, 1)y = np.cos(X).ravel()# 添加一些噪声y += 0.2 * np.random.rand(n_dots) - 0.1...原创 2018-06-06 20:21:22 · 4875 阅读 · 0 评论 -
sklearn实战:使用knn算法进行分类及可视化
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets.samples_generator import make_blobs# 生成数据centers = [[-2, 2], [2, 2], [0, 4]]X, y = make_blobs(n_sample...原创 2018-06-06 18:10:54 · 8970 阅读 · 0 评论 -
sklearn实战:糖尿病预测(knn算法)
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd# 加载数据data = pd.read_csv('datasets/pima-indians-diabetes/diabetes.csv')print('dataset shape {}'.for...原创 2018-06-06 20:19:10 · 7456 阅读 · 4 评论 -
决策树可视化代码
import osimport timeimport pydotplusimport numpy as npfrom sklearn import treefrom sklearn.externals.six import StringIOfrom sklearn.model_selection import train_test_splitprint('Step 1.Loadi...转载 2019-01-18 17:11:13 · 830 阅读 · 0 评论