Seaborn绘制热力图

Seaborn绘制热力图 Seaborn.heatmap (data, vmin=None, vmax=None, camp=None, center=None, robust=False, annot=None, fmt=’.2g’, annot_kws=None, linewidths=0...

2019-01-17 10:32:14

阅读数 14

评论数 0

透视表(pivotTab)和交叉表(crossTab)

Pandas:透视表(pivotTab)和交叉表(crossTab) 一、透视表(pivotTab) 透视表就是将指定原有DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数(默认情况下式mean函数)。   import numpy as np import pan...

2019-01-10 10:56:49

阅读数 13

评论数 0

sklearn中的k折交叉验证

K折交叉验证: sklearn.model_selection.KFold(n_splits=3,shuffle=False,random_state=None) 思路:将训练/测试数据划分n_splits个互斥子集,每次用其中一个子集当作验证集,剩下的n_splits-1个作为训练集,进行n_...

2019-01-08 16:32:48

阅读数 16

评论数 1

sklearn 中的 Pipeline 机制

sklearn 中的 Pipeline 机制 from sklearn.pipeline import Pipeline 管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pipelines)。 注意:管道机制更像是编程技巧的创新,而非算法的创新。...

2019-01-08 14:54:08

阅读数 13

评论数 0

kaggle-房价预测案例

 此案例为kaggle上面的房价预测案例 https://www.kaggle.com/c/house-prices-advanced-regression-techniques 具体代码如下 import numpy as np import pandas as pd import ma...

2019-01-06 22:15:42

阅读数 18

评论数 0

Kaggle_Titanic生存预测 -- 详细流程吐血梳理

转载 一直想在Kaggle上参加一次比赛,奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识,断断续续用一段时间做了Kaggle上的入门比赛:Titanic: Machine Learning from Disaster。 总的来说收获还算是挺大的吧。本来想的是只简单的...

2019-01-05 19:51:06

阅读数 27

评论数 0

kaggle比赛集成指南

转自 介绍 集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。 在第一部分中,我们会讨论从提交文件中建立集成。主要包括: 投票集成 平均 排名平均 第二部分我们会讨论 通过 generalization/blendin...

2019-01-05 19:21:42

阅读数 27

评论数 0

pandas学习详细教程

pandas基础篇 我们打算从以下几个方面进行代码练习: ** 创建Series ** Series基本操作 ** 创建DataFrame ** DataFrame基本操作 ** DataFrame文件操作 ** Series,DataFrame和多索引 ** 透视表 ** ...

2019-01-04 21:56:01

阅读数 11

评论数 0

pd.get_dummies()与pd.factorize()详解

pandas.get_dummies (将类别变量转换为one-hot编码,使用pandas方法实现,相当于sklearn的one-hot编码)   离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2...

2019-01-04 21:24:04

阅读数 18

评论数 0

python数据处理

#-------------------------python数据分析特征预处理代码示例---------------------------- import pandas as pd import scipy.stats as ss import numpy as np from skle...

2019-01-03 20:53:54

阅读数 19

评论数 0

Python数据处理实例

 使用python进行数据处理的实例(数据为某公司HR部门关于员工信息的部分摘录,kaggle上面的一次赛题) https://www.kaggle.com/c/kfru-dbm-hr-analytics 该实例是根据其他所给属性预测员工是否会离职,代码实现如下所示 import pand...

2019-01-02 19:05:28

阅读数 2013

评论数 11

NLP练习

import numpy as np import pandas as pd from sklearn.ensemble import RandomForestRegressor,BaggingRegressor from sklearn.model_selection import cross...

2018-12-27 15:54:36

阅读数 10

评论数 0

sklearn实现决策树

决策树          决策树是一种用于分类和回归的非参数监督学习方法。目标是通过学习从数据特征推断出的简单决策规则,创建一个预测目标变量值的模型。     决策树的优点:          1)易于理解和解释。树木可以被可视化;          2)只需要很少的数据准备,数据可以不规...

2018-12-22 12:15:18

阅读数 30

评论数 0

Sklearn实现朴素贝叶斯

#------------------------------Sklearn 实现朴素贝叶斯----------------------- # 在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。 # 分别是GaussianNB,MultinomialNB和BernoulliNB。...

2018-12-21 11:12:34

阅读数 19

评论数 0

Sklearn实现knn

#----------------------------------Sklearn实现Knn------------------------------ # KNeighborsClassifier(n_neighbors=5, weights=’uniform’, # algorithm=’...

2018-12-21 09:59:10

阅读数 26

评论数 0

Sklearn中的线性回归

import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression #假设样本数据集如下; data=[ [0.067732,3.176513],[0...

2018-12-20 21:44:28

阅读数 17

评论数 0

LDA主题模型

LDA文档主题生成模型 LDA是一种文档主题生成模型,包含词、主题和文档三层结构。 所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 LDA是一种非监督...

2018-12-20 19:08:48

阅读数 21

评论数 0

数据分析流程

数据分析流程 数据获取 -> 探索分析与可视化 -> 数据预处理 -> 数据分析与建模 -> 模型评估 数据分析就是利用统计分析方法,来提取有用的信息并进行总结与概括的过程。 数据获取的手段可以分为以下四...

2018-12-19 20:08:45

阅读数 28

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭