故事背景:原始数据为个人交易记录,但是考虑数据本身的隐私性,已经对原始数据进行了类似PCA的处理,现在已经把特征数据提取好了,接下来的目的就是如何建立模型使得检测的效果达到最好,这里我们虽然不需要对数据做特征提取的操作,但是面对的挑战还是蛮大的。
import pandasaspd
import matplotlib.pyplot asplt
import numpy asnp
fromsklearn.cross_validation import train_test_split
fromsklearn.linear_model import LogisticRegression
fromsklearn.cross_validation import KFold, cross_val_score
fromsklearn.metrics import confusion_matrix,recall_score,classification_report
数据分析与建模可不是体力活,时间就是金钱我的朋友(魔兽玩家都懂的!)如果你用Python来把玩数据,那么这些就是你的核武器啦。简单介绍一下这几位朋友!
Numpy-科学计算库 主要用来做矩阵运算,什么?你不知道哪里会用到矩阵,那么这样想吧,咱们的数据就是行(样本)和列(特征)组成的,那么数据本身不就是一个矩阵嘛。
Pandas-数据分析处理库 很多小伙伴都在说用python处理数据很容易,那么容易在哪呢?其实有了pandas很复杂的操作我们也可以一行代码去解决掉!
Matplotlib-可视化库 无论是分析还是建模,光靠好记性可不行,很有必要把结果和过程可视化的展示出来。
Scikit-Learn-机器学习库 非常实用的机器学习算法库,这里面包含了基本你觉得你能用上所有机器学习算法啦。但还远不止如此,还有很多预处理和评估的模块等你来挖掘的!
data = pd.read_csv("creditcard.csv") data.head()
首先我们用pandas将数据读进来并显示最开始的5行,看见木有!用pandas读取数据就是这么简单!这里的数据为了考虑用户隐私等,已经通过PCA处理过了,现在大家只需要把数据当成是处理好的特征就好啦!
接下来我们核心的目的就是去检测在数据样本中哪些是具有欺诈行为的!
count_classes = pd.value_counts(data['Class'], so