2017年08月_道八说胡

08月 07月 04月 03月 01月

转载特征选择

# encoding:utf-8from sklearn.feature_selection import VarianceThreshold# 6个样本，3维的特征向量X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]# 根据方差保留80%的向量# 计算公式：var_thresh = p(1-

2017-08-23 15:05:40 377

转载 GridSearchCV用法

# encoding:utf-8from sklearn.model_selection import train_test_splitfrom sklearn import datasets, svmfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import accuracy_scoreiris

2017-08-23 15:04:02 1536

转载 SVM参数介绍

SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数，即对误差的宽容度。c越高，说明越不能容忍出现误差,容易过拟合。C越小，容易欠拟合。C过大或过小，泛化能力变差 gamma是选择RBF函数作为kernel后，该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布，gamma越大，支持向量越少，gamma值越小，支持向量越多。支持向量的个数影响训练与预测

2017-08-22 09:38:59 1252

原创 linux命令总结（不断更新）

1 join的用法给两个文件，按某列joinjoin 1 -1 2 -2 2 file1 file2详见http://jjuanxi.blog.163.com/blog/static/17527419720121954756361/http://skypegnu1.blog.51cto.com/8991766/1427158

2017-08-16 15:10:35 305

原创 100元随机分给10个人最多20 最少0.01

# encoding:utf-8import random"将问题分解成两步：先生成10个随机红包，再随机发给10个人的问题。这样算法就集中在第一步上。""每生成一个红包，计算剩余金额给剩下的人发，最多能发多少，如果大于12以12算，最少能发多少；如果小于6以6计算。生成一个最大于最小之间的随机数。最后一个人的红包则是总额的余额。"# random.uniform(a, b)，用于生成一个

2017-08-11 16:05:44 3292 1

原创 kmeans 的k值确定方法

用聚类算法分好类后如何判断分的效果呢？方法就是轮廓系数(Silhouette)。 Silhouette系数是对聚类结果有效性的解释和验证，由PeterJ. Rousseeuw于1986提出。方法： 1，计算样本i到同簇其他样本的平均距离ai。ai越小，说明样本i越应该被聚类到该簇。将ai称为样本i的簇内不相似度。

2017-08-09 11:53:58 4545

目前有三类处理方法：1. 用平均值、中值、分位数、众数、随机值等替代。效果一般，因为等于人为增加了噪声。2. 用其他变量做预测模型来算出缺失变量。效果比方法1略好。有一个根本缺陷，如果其他变量和缺失变量无关，则预测的结果无意义。如果预测结果相当准确，则又说明这个变量是没必要加入建模的。一般情况下，介于两者之间。3. 最精确的做法，把变量映射到高维空间。比如性别，有男、女、缺失三种情况，则映射成3个

2017-08-08 16:34:56 533

转载 adaboost和GBDT的区别以及xgboost和GBDT的区别

AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注，于是，分类问题就被一系列的弱分类器“分而治之”。至于第二个问题，即弱分类器的组合，AdaBoost采取加权多数表决的方法。具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率较大的弱分类器

2017-08-08 15:01:55 18647 1

转载集成学习分类和区别

集成学习1.1 定义所谓集成学习（ensemble learning），是指通过构建多个弱学习器，然后结合为一个强学习器来完成分类任务。并相较于弱分类器而言，进一步提升结果的准确率。严格来说，集成学习并不算是一种分类器，而是一种学习器结合的方法。下图显示了集成学习的整个流程：首次按产生一组“个体学习器”，这些个体学习器可以是同质的（homogeneous）（例如

2017-08-08 10:34:00 10138

利用python进行数据分析-源码和数据集

这是《利用python进行数据分析》一书的源码和数据集，这本书可以说是数据分析和机器学习必学的一本经典，希望这个源码能够帮助大家

2017-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

chengfulukou的博客