2017年07月_songhao22

08月 07月 06月 05月 04月 03月

原创数据特征提取，特征量相关性分析

python数据分析与挖掘实战笔记降维86页 PCA主成分分析100页随机逻辑回归模型选取特征变量特征相关性分析49页

2017-07-16 18:38:11 7334

转载十折交叉验证和混淆矩阵

一、十折交叉验证前面提到了数据集分为训练集和测试集，训练集用来训练模型，而测试集用来测试模型的好坏，那么单一的测试是否就能很好的衡量一个模型的性能呢？答案自然是否定的，单一的测试集具有偶然性和随机性。因此本文介绍一种衡量模型（比如分类器）性能的方法——十折交叉验证(10-fold cross validation)什么是十折交叉验证？假设有个数据集，需要建立一个分类

2017-07-16 16:58:21 8447

转载机器学习性能评估指标---准确率(Accuracy), 精确率(Precision), 召回率(Recall)

分类混淆矩阵1True Positive(真正, TP)：将正类预测为正类数.True Negative(真负 , TN)：将负类预测为负类数.False Positive(假正, FP)：将负类预测为正类数 →→ 误报 (Type I error).False Negative(假负 , FN)：将正类预测为负类数 →→ 漏报 (Type II error).

2017-07-16 16:14:04 30745

转载调用python的sklearn实现Logistic Reression算法

转载自：http://www.itnose.NET/detail/6197189.html 先说如何实现，其中的导入数据库和类、方法的关系，之前不是很清楚，现在知道了。。。 from numpy import * from sklearn.datasets import load_iris # import datasets# load the

2017-07-16 16:09:48 703

转载 Pandas的 loc iloc ix 区别

import pandas as pd data = [[1,2,3],[4,5,6]] index = [0,1] columns=['a','b','c'] df = pd.DataFrame(data=data, index=index, columns=columns) 1. loc——通过行标签索引行数据 df.loc[1]

2017-07-13 22:54:46 913