数据挖掘
Dxy17
welcome:future
展开
-
数据挖掘项目(1)对数据进行探索和分析
1.数据类型的分析(假设数据为'data.csv')首先读入数据,这个数据是csv格式,可以用pandas来读,如果读不进来的时候,可以用记事本打开'data.csv'然后另存为'data_2.csv'并且保存为'utf-8'的编码格式。然后读取数据。import pandas as pd'''read data'''data = pd.read_csv('data_2.csv')...原创 2019-03-01 22:37:16 · 1413 阅读 · 1 评论 -
数据挖掘项目__数据分类
此次分类任务用到的数据集是上次用到的金融数据并预测贷款用户是否会逾期,主要用sklearn中的几个分类方法来对预处理之后的数据进行分类。1.Logistic RegressionLogistic Regression名称上面有一个回归但其实是一个分类方法,主要用于二分类问题,是通过建立一个损失函数,然后通过优化方法迭代求解出最优的模型参数,最后测试验证我们这个求解的模型的好坏。主要用到...原创 2019-03-05 21:03:11 · 1403 阅读 · 1 评论 -
数据挖掘(4):不同的分类模型有关金融数据分类的评价(accuracy、precision,recall和F1-score)
1.首先读入数据(已经处理(删除,填补,类型转换,归一化)过的数据)并定义计算accuracy、precision,recall和F1-score的函数,并对数据采用sklearn中的特征递归消除法进行特征选择from sklearn import metricsimport pandas as pdfrom sklearn.feature_selection import RFEd...原创 2019-03-09 22:05:05 · 894 阅读 · 0 评论 -
数据挖掘项目(2)特征选择
此次进行特征选择的数据还是上次用到的金融数据并预测贷款用户是否会逾期。此次数据为了排除缺失值对数据的影响,将所有缺失的样本数据进行删除,并删除了几个对数据分类无影响的变量,最后保留1534×86的数据量。1.删除方差较小的特征,也就是所谓的不发散的特征,因为这些特征在所有的数据中变化量很小或者几乎没有变化,那么可以认为这个变量对分类的结果不会产生太大的影响。import pandas a...原创 2019-03-04 21:16:54 · 509 阅读 · 0 评论 -
数据挖掘(5)模型调优(sklearn中的网格搜索)
使用网格搜索法对5个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估可以使用sklearn中的网格搜索from sklearn.model_selection import GridSearchCVclf = LogisticRegression(C=1.0, max_iter=1000).fit(train_data, train_label)parameters =...原创 2019-03-11 20:42:07 · 3821 阅读 · 0 评论 -
数据挖掘(6):模型融合(stacking)
在进行分类的时候,通常我们会选择对多个分类模型进行融合以获得更高的分类效果.这里采用stacking的方法,具体的方法详见之前的博客:https://blog.csdn.net/m0_37548423/article/details/86656070(里面有stacking的介绍)python中我们可以用mlxtend.classifier中的StackingClassifier来进行模型融合...原创 2019-03-13 20:09:44 · 1528 阅读 · 1 评论 -
达观杯文本智能挑战赛任务二(TF-IDF)
简介TF-IDF(termfrequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。原理TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词...原创 2019-04-07 21:51:46 · 193 阅读 · 0 评论 -
任务四:使用Logistic Regression 和 SVM 对数据进行分类并评估
1.对前几部得到的特征进行分类,主要用到sklearn中的Logistic Regression 和 SVM,这两种算法的具体算法这里不再详述了import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.cross_validation import train_test_split...原创 2019-04-11 21:47:41 · 785 阅读 · 0 评论 -
任务五:使用LightGBM对数据进行分类并评估
1.对前几部得到的特征进行分类,主要用到sklearn中的LightGBM进行评估,并用网格搜索进行参数调优。2.Lightgbm是2017年在当时的NeurIPS(当时为NIPS)上发表的论文,文中主要是相比于XGBoost,LightGBM更高效。import pandas as pdfrom sklearn.model_selection import GridSearchCV...原创 2019-04-15 09:15:06 · 7171 阅读 · 2 评论