自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

转载 特征选择

# encoding:utf-8from sklearn.feature_selection import VarianceThreshold# 6个样本,3维的特征向量X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]# 根据方差保留80%的向量# 计算公式:var_thresh = p(1-

2017-08-23 15:05:40 376

转载 GridSearchCV用法

# encoding:utf-8from sklearn.model_selection import train_test_splitfrom sklearn import datasets, svmfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import accuracy_scoreiris

2017-08-23 15:04:02 1536

转载 SVM参数介绍

SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差,容易过拟合。C越小,容易欠拟合。C过大或过小,泛化能力变差        gamma是选择RBF函数作为kernel后,该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。支持向量的个数影响训练与预测

2017-08-22 09:38:59 1251

原创 linux命令总结(不断更新)

1 join的用法给两个文件,按某列joinjoin 1 -1 2 -2 2 file1 file2详见http://jjuanxi.blog.163.com/blog/static/17527419720121954756361/http://skypegnu1.blog.51cto.com/8991766/1427158

2017-08-16 15:10:35 305

原创 100元随机分给10个人 最多20 最少0.01

# encoding:utf-8import random"将问题分解成两步:先生成10个随机红包,再随机发给10个人的问题。这样算法就集中在第一步上。""每生成一个红包,计算剩余金额给剩下的人发,最多能发多少,如果大于12以12算,最少能发多少;如果小于6以6计算。生成一个最大于最小之间的随机数。最后一个人的红包则是总额的余额。"# random.uniform(a, b),用于生成一个

2017-08-11 16:05:44 3292 1

原创 kmeans 的k值确定方法

用聚类算法分好类后如何判断分的效果呢?方法就是轮廓系数(Silhouette)。         Silhouette系数是对聚类结果有效性的解释和验证,由PeterJ. Rousseeuw于1986提出。        方法:                 1,计算样本i到同簇其他样本的平均距离ai。ai越小,说明样本i越应该被聚类到该簇。将ai称为样本i的簇内不相似度。 

2017-08-09 11:53:58 4543

转载 缺失值的处理

目前有三类处理方法:1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。2. 用其他变量做预测模型来算出缺失变量。效果比方法1略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建模的。一般情况下,介于两者之间。3. 最精确的做法,把变量映射到高维空间。比如性别,有男、女、缺失三种情况,则映射成3个

2017-08-08 16:34:56 533

转载 adaboost和GBDT的区别以及xgboost和GBDT的区别

AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而受到后一轮的弱分类器的更大关注,于是,分类问题就被一系列的弱分类器“分而治之”。至于第二个问题,即弱分类器的组合,AdaBoost采取加权多数表决的方法。具体地,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率较大的弱分类器

2017-08-08 15:01:55 18646 1

转载 集成学习分类和区别

集成学习1.1 定义所谓集成学习(ensemble learning),是指通过构建多个弱学习器,然后结合为一个强学习器来完成分类任务。并相较于弱分类器而言,进一步提升结果的准确率。严格来说,集成学习并不算是一种分类器,而是一种学习器结合的方法。下图显示了集成学习的整个流程:首次按产生一组“个体学习器”,这些个体学习器可以是同质的(homogeneous)(例如

2017-08-08 10:34:00 10137

利用python进行数据分析-源码和数据集

这是《利用python进行数据分析》一书的源码和数据集,这本书可以说是数据分析和机器学习必学的一本经典,希望这个源码能够帮助大家

2017-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除