花名:白起

科技改变世界,技术改变人生。

排序:
默认
按更新时间
按访问量

python数据相关性分析

分析特征之间的相关性,得到哪个两个特征的具有关系,这样对于后期的数据分析可以提供帮助。 数据源示例: (每列都是一个特征,每行为一个用户) [10, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 5, 0] [4, 0, 0, 0, 0,...

2018-08-01 14:17:47

阅读数:28

评论数:0

Python数据相关性分析

概述 在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对数据进行分析,从而给我们的决策提供支持,本文即介绍如何使用 Python 进行数据相关性分析。 ...

2018-07-26 18:37:47

阅读数:28

评论数:0

使用keras进行多分类建模

项目地址:https://github.com/imgoodman/tensorflow-in-action/tree/master/iris-multi-classkeras是用于深度学习的python库,它包含了高效的数值库,以Theano或Tensorflow为后端。这里,使用keras开发...

2018-07-11 17:08:36

阅读数:61

评论数:0

kaggle比赛 Dogs vs. Cats 使用Keras(Tensorflow)实践

注意:1、代码是在linux环境实践,tensorflow==1.6.0  keras==1.2.2 参考2、ResNet50,Xception,InceptionV3三个模型中,只有ResNet50可以使用,其他的两个无法下载使用3、比赛地址 https://www.kaggle.com/c/d...

2018-07-06 14:26:07

阅读数:189

评论数:0

linux+Anaconda+conda创建Keras(tensorflow)虚拟环境

#root用户安装 [root@node1 ~]#yum install -y lrzsz [root@node1 ~]#yum install -y bzip2 #以下内容可以普通用户安装1、Anaconda安装 Anaconda 安装包可以到清华 https://mirrors.tuna.ts...

2018-07-03 15:03:18

阅读数:159

评论数:0

特征选择方法

# -*- coding: utf-8 -*- import pandas as pd from sklearn.model_selection import train_test_split import xgboost as xgb data=pd.read_csv('D:\\shop\...

2018-05-21 20:46:50

阅读数:102

评论数:0

SKlearn数据集转换之预处理数据

数据集转换之预处理数据:将输入的数据转化成机器学习算法可以使用的数据。包含特征提取和标准化。原因:数据集的标准化(服从均值为0方差为1的标准正态分布(高斯分布))是大多数机器学习算法的常见要求。如果原始数据不服从高斯分布,在预测时表现可能不好。在实践中,我们经常进行标准化(z-score 特征减去...

2018-05-21 20:33:21

阅读数:101

评论数:0

轻松理解箱形图

箱形图,也叫盒须图,盒式图,boxplot。有95%的把握猜中你现在已经不太确定,这图中有几条线?每条线代表什么意思?中间的那条线代表的究竟是算数平均数还是中位数,还是众数?再问的深点,箱形图存在的意义为何?之于数据分析的实践意义在哪里?接下来,带你从概念开始,一步步剖析箱形图以及背后的故事。1....

2018-04-11 16:41:57

阅读数:175

评论数:0

分类中的训练数据集不均衡问题处理

什么是数据不均衡? 在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子: ①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分类为class 1。 ②在三...

2017-11-20 20:08:14

阅读数:1353

评论数:0

通过Anaconda安装TensorFlow环境

安装 Anaconda : 参考 Anaconda安装 1、建立环境 建立一个 conda 计算环境名字叫tensorflow: # Python 2.7 $ conda create -n tensorflow python=2.7 # Python 3.4 $ conda create...

2017-10-13 16:00:56

阅读数:1069

评论数:0

centos使用libffm

如果你在使用centos6的时候,安装libffm出现各种问题,请直接到文章结尾查看解决方案,文章中间内容都是解决问题的流程。 下载gcc最新版 yum -y install gcc gcc-c++ wget http://ftp.gnu.org/gnu/gcc/gcc-4.8.1/...

2017-09-26 20:58:47

阅读数:391

评论数:0

使用scikit-learn tfidf计算词语权重

TF-IDF概述 TF-IDF是Term Frequency -  Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这...

2017-09-13 10:38:11

阅读数:3449

评论数:0

Kaggle房价预测案例分享

在Jupyter Notebook运行可以显示图 参考:https://github.com/AliceDudu/Kaggle-projects/blob/master/house-prices-advanced-regression-techniques/house-1-feature.ipyn...

2017-09-05 17:02:39

阅读数:1349

评论数:0

使用xgboost进行特征选择

xgboost在各大数据挖掘比赛中是一个大杀器,往往可以取得比其他各种机器学习算法更好的效果。数据预处理,特征工程,调参对Xgboost的效果有着非常重要的影响。这里介绍一下运用xgboost的特征选择,运用xgboost的特征选择可以筛选出更加有效的特征代入Xgboost模型。 这里采用的...

2017-08-17 15:34:15

阅读数:871

评论数:0

特征选择:连续特征离散化达到更好的效果

http://www.zhihu.com/question/31989952 连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里? A:在工业界,很少直接将连续值...

2017-08-17 14:35:36

阅读数:230

评论数:0

GBDT+LR特征融合的例子

sklearn直接使用.apply即可完成,下面看下简单的例子。 import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.ensemble import GradientBoostin...

2017-08-14 20:22:30

阅读数:3063

评论数:0

利用GBDT模型构造新特征

通过实践以下内容,使用GBDT生成新的特性,与原特性合并后,进行模型预测,AUC的分数不一定比原数据要高,所以通过测试后选择是否使用此方法。 实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏。引用下面一句流行的话: ...

2017-08-14 19:40:13

阅读数:309

评论数:0

将xgboost0.4升级到xgboost0.6版本

因为apply()方法需要xgboost0.6版本,本地是0.4版本的所以需要升级下,简单记录下: pip list pip install xgboost pip install --upgrade pip yum install gcc 升级到xgboost0.6版本 mkdir t...

2017-08-14 18:06:01

阅读数:745

评论数:0

推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

1、准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的...

2017-07-14 17:50:51

阅读数:304

评论数:0

centos6安装xgboost0.6

1. 升级gcc4.4  到gcc4.8 wget  http://people.centos.org/tru/devtools-2/devtools-2.repo mv  devtools-2.repo   /etc/yum.repos.d yum install devtoolset-2-gc...

2017-07-13 17:45:47

阅读数:174

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭