数据挖掘资源整理篇
总结数据挖掘有空资源
skyHdd
deep work,simple life
展开
-
数据平滑 log1p
数据平滑处理 – log1p( ) 和 exmp1( )在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个更好的结果;平滑处理很容易被忽略掉,导致模型的结果总是达不到一定的标准,同样使用逼格更高的log1p能避免复值得问题——复值指一个自变量对应多个因变量.数据预处理时首先可以对偏度比较大的数据用og1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果。平滑问题很容易处理掉,原创 2020-07-10 22:20:49 · 997 阅读 · 1 评论 -
类别不均衡(目标变量)
查看数据比例from collections import Counter# 查看所生成的样本类别分布,0和1样本比例9比1,属于类别不平衡数据y.value_counts().plot(kind='pie')print(Counter(y))# Counter({0: 900, 1: 100})SMOTE 过采样# 过采样import imblearnfrom imblearn.over_sampling import SMOTEsm = SMOTE(random_state=42原创 2020-07-09 22:21:02 · 1423 阅读 · 0 评论 -
sklearn 算法调参 决策树调参
scikit-learn决策树算法类库介绍scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同,但是意义不全相同。下面就对DecisionTreeClassifier和DecisionTreeRegressor的重要参数做一个总结,重点比较两者参数使用的不同点和调参的注意点。Deci..原创 2020-07-05 16:26:17 · 978 阅读 · 0 评论 -
sklearn 细节总结
sklearn 细节总结1、数据集划分随机划分分层划分1、数据集划分随机划分from sklearn.model_selection import train_test_split#data:需要进行分割的数据集#random_state:设置随机种子,保证每次运行生成相同的随机数#test_size:将数据分割成训练集的比例train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)分层划分常用于原创 2020-06-23 20:08:23 · 249 阅读 · 0 评论 -
训练集、验证集和测试集
训练集、验证集和测试集原创 2020-06-23 19:59:48 · 3316 阅读 · 0 评论 -
机器学习问题解决架构模板(通用)
出处:http://blog.csdn.net/han_xiaoyang/article/details/52910022通用机器学习流程与问题解决架构模板前言数据标签的种类评估指标库机器学习总体框架前言本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。链接:https://www.linkedin.com/pulse/approaching-almost-any-machine-learning-problem-abhishek-thakur/一个中等水平原创 2020-06-04 22:51:57 · 529 阅读 · 0 评论 -
特征选择:贪心算法和其评价矩阵的AUC
"""Greedy Feature Selection using Logistic Regression as base modelto optimize Area Under the ROC Curve"""import numpy as npimport sklearn.linear_model as lmfrom sklearn import metrics, preprocessingclass greedyFeatureSelection(object): d原创 2020-06-04 22:46:28 · 1214 阅读 · 0 评论 -
k-折划分训练集和测试集
将数据分成训练集和验证集“必须”根据标签进行。遇到分类问题,使用分层分割就对了。在Python中,用scikit-learn很容易就做到了。(CV)遇到回归问题,一个简单的K-Fold分割就可以了。当然,也还有很多复杂的方法能够在维持训练集和验证集原有分布的同时将数据分割开来。这个就留给读者们自己去练习啦。k-折交叉验证 。 k-折交叉验证将训练集划分为 k 个较小的集合(其他方法会在下面描述,主要原则基本相同)。 每一个 k 折都会遵循下面的过程:将 k-1 份训练集子集作为 training原创 2020-06-04 22:20:29 · 3729 阅读 · 0 评论 -
数据挖掘 数据集网站
数据集网站sklearn自带数据集 datasetsUCI机器学习数据集sklearn自带数据集 datasetssklearn不仅有函数还有数据集,在datasets包中,例如导入datasets中iris数据集:from sklearn.datasets import load_irisUCI机器学习数据集网址:UCI Machine Learning Repositoryhtt...原创 2020-04-27 19:35:43 · 277 阅读 · 1 评论 -
pycharts 数据分析与数据可视化
pycharts 数据可视化特性pycharts库安装调用快速画图进阶Echarts 是一个由百度开源的数据可视化。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。特性简洁的 API 设计,使用如丝滑般流畅,支持链式调用;囊括了 30+ 种常见图表,应有尽有;支持主流 Notebook 环境,Jupyter Note...原创 2020-04-19 17:23:37 · 1254 阅读 · 0 评论