道八说胡-CSDN博客

转载特征选择

# encoding:utf-8from sklearn.feature_selection import VarianceThreshold# 6个样本，3维的特征向量X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]# 根据方差保留80%的向量# 计算公式：var_thresh = p(1-

2017-08-23 15:05:40 364

转载 GridSearchCV用法

# encoding:utf-8from sklearn.model_selection import train_test_splitfrom sklearn import datasets, svmfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import accuracy_scoreiris

2017-08-23 15:04:02 1518

转载 SVM参数介绍

SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数，即对误差的宽容度。c越高，说明越不能容忍出现误差,容易过拟合。C越小，容易欠拟合。C过大或过小，泛化能力变差 gamma是选择RBF函数作为kernel后，该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布，gamma越大，支持向量越少，gamma值越小，支持向量越多。支持向量的个数影响训练与预测

2017-08-22 09:38:59 1156

原创 linux命令总结（不断更新）

1 join的用法给两个文件，按某列joinjoin 1 -1 2 -2 2 file1 file2详见http://jjuanxi.blog.163.com/blog/static/17527419720121954756361/http://skypegnu1.blog.51cto.com/8991766/1427158

2017-08-16 15:10:35 295

原创 100元随机分给10个人最多20 最少0.01

# encoding:utf-8import random"将问题分解成两步：先生成10个随机红包，再随机发给10个人的问题。这样算法就集中在第一步上。""每生成一个红包，计算剩余金额给剩下的人发，最多能发多少，如果大于12以12算，最少能发多少；如果小于6以6计算。生成一个最大于最小之间的随机数。最后一个人的红包则是总额的余额。"# random.uniform(a, b)，用于生成一个

2017-08-11 16:05:44 3199 1

原创 kmeans 的k值确定方法

用聚类算法分好类后如何判断分的效果呢？方法就是轮廓系数(Silhouette)。 Silhouette系数是对聚类结果有效性的解释和验证，由PeterJ. Rousseeuw于1986提出。方法： 1，计算样本i到同簇其他样本的平均距离ai。ai越小，说明样本i越应该被聚类到该簇。将ai称为样本i的簇内不相似度。

2017-08-09 11:53:58 4473

目前有三类处理方法：1. 用平均值、中值、分位数、众数、随机值等替代。效果一般，因为等于人为增加了噪声。2. 用其他变量做预测模型来算出缺失变量。效果比方法1略好。有一个根本缺陷，如果其他变量和缺失变量无关，则预测的结果无意义。如果预测结果相当准确，则又说明这个变量是没必要加入建模的。一般情况下，介于两者之间。3. 最精确的做法，把变量映射到高维空间。比如性别，有男、女、缺失三种情况，则映射成3个

2017-08-08 16:34:56 506

转载 adaboost和GBDT的区别以及xgboost和GBDT的区别

AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注，于是，分类问题就被一系列的弱分类器“分而治之”。至于第二个问题，即弱分类器的组合，AdaBoost采取加权多数表决的方法。具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率较大的弱分类器

2017-08-08 15:01:55 18545 1

转载集成学习分类和区别

集成学习1.1 定义所谓集成学习（ensemble learning），是指通过构建多个弱学习器，然后结合为一个强学习器来完成分类任务。并相较于弱分类器而言，进一步提升结果的准确率。严格来说，集成学习并不算是一种分类器，而是一种学习器结合的方法。下图显示了集成学习的整个流程：首次按产生一组“个体学习器”，这些个体学习器可以是同质的（homogeneous）（例如

2017-08-08 10:34:00 9810

转载 keras mnist cnn example

# encoding:utf-8from __future__ import print_functionimport kerasfrom keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.lay

2017-07-27 10:14:56 1043

转载使用 Python 获取两个列表的交集、并集、差集的常用方法

之前想求两个list的差集用了下面方法结果特别慢# # print(len(set(i for i in a if i not in b)))网上看到一篇好博客分享一下在数据处理中经常需要使用 Python 来获取两个列表的交集，并集和差集。在 Python 中实现的方法有很多，我平时只使用一两种我所熟悉的，但效率不一定最高，也不一定最优美，所以这次想把常用的方法都搜集总结一下

2017-07-20 10:35:20 10185 1

原创 windows环境下更新tensorflow

我的tensorflow 是Anaconda 方式的最开始是1.0版本更新如下： anaconda search -t conda tensorflow因为对应的conda-forge/tensorflow 版本是1.2.0因此，执行：anaconda show conda-forge/tensorflow在执行 conda install -

2017-07-16 15:28:11 1314

原创 python 去除重复字符

# encoding:utf-8# 去除相邻的重复字符def RemoveAdjacentRepeatCharacters(a): if(a==''): return a b='' for i in a: if (b == ''): b += i if(i==b[len(b)-1]):

2017-07-14 09:45:09 9003

转载机器学习LR入门

监督学习关注对事物未知表现的预测，一般包括分类问题(Classification)和回归问题（Regression），无监督学习倾向于对事物本身特性的分析，常用的技术包括数据降维(Dimensionality Reduction)和聚类问题(Clustering)下面为‘良/恶性乳腺癌肿瘤预测’代码# -*- coding: utf-8 -*-import pandas as pd

2017-04-11 10:07:24 1849 1

原创机器学习缺失值处理

分类：完全随机缺失：当某变量缺失值发生的可能性与其他变量无关也与该变量自身无关，例如婚姻状态的缺失随机缺失：当某变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无关时，例如配偶姓名的缺失取决于是否有配偶完全非随机缺失：某变量只与自身有关，缺失值依赖于自己，例如高收入人群不愿意提供家庭收入；例如，公司新录用了20名员工，由于6名员工表现较差在试用期内辞退，试用期结束后的表

2017-04-06 15:57:54 730

原创常用统计学知识

单变量方差分析方差分析的主要功能就是验证两组样本，或者两组以上的样本均值是否有显著性差异（是否一致）。这里有两个大点需要注意：①方差分析的原假设是：样本不存在显著性差异（即，均值完全相等）；②两样本数据无交互作用（即，样本数据独立）这一点在双因素方差分析中判断两因素是否独立时用。原理方差分析的原理就一个方程：SST=SSM+SSE (全部平方和=模型平方和+误差平方和)

2017-03-30 14:00:56 676

转载 ipynb文件打开方式

安装 jupyteripython从版本4.0以后就把notebook从Python独立出来了，不仅支持ipython还支持R,matlab，并且改名为jupytersudo pip install jupyter1212此时在当前目录下运行:jupyter notebook11会在浏览器窗口上列出所有的ipynb文件,如

2017-01-09 17:13:21 1469

转载 red hat linux离线安装python机器学习包这篇就够了！

Python下大多数工具包的安装都很简单，只需要执行 “python setup.py install”命令即可。然而，由于SciPy和numpy这两个科学计算包的依赖关系较多，安装过程较为复杂。网上教程较为混乱，而且照着做基本都不能用。在仔细研读各个包里的README和INSTALL之后，终于安装成功。现记录如下。系统环境：OS：RedHat5Python版本：Python2.7.3

2016-11-26 00:09:29 3637

chengfulukou的博客