花名:白起

科技改变世界,技术改变人生。

排序:
默认
按更新时间
按访问量

共享优秀博文及书单

网上的优秀教程及书籍有很多,之前一直使用收藏夹方式收藏,后来发现越来越多,导致优秀的教程自己也找不到了,本着共享精神,以后将优秀的教程链接及书单名称全部整理到这里,便于自己查找,也共享给其他朋友,共用进步,书单只提供书的名字,建议大家购买正版图书,如果此文有内容侵犯到作者权益,请联系我,最近觉得一...

2017-03-12 10:03:16

阅读数:765

评论数:0

python将txt文件转为excel格式

因业务需要,将txt文件转换为excel文件,代码考虑了健壮性,分享一下,代码如下: 使用方法:sh txt2excel.sh file.txt [cl@master txt2excel]$ cat file.txt aaaa bbbb cccc dddd eeee [cl@maste...

2018-08-31 10:23:11

阅读数:50

评论数:0

python数据相关性分析实践

分析特征之间的相关性,得到哪个两个特征的具有关系,这样对于后期的数据分析可以提供帮助。 数据源示例: (每列都是一个特征,每行为一个用户) [10, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 5, 0] [4, 0, 0, 0, 0,...

2018-08-01 14:17:47

阅读数:98

评论数:0

Python数据相关性分析

概述 在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对数据进行分析,从而给我们的决策提供支持,本文即介绍如何使用 Python 进行数据相关性分析。 ...

2018-07-26 18:37:47

阅读数:78

评论数:0

使用keras进行多分类建模

项目地址:https://github.com/imgoodman/tensorflow-in-action/tree/master/iris-multi-classkeras是用于深度学习的python库,它包含了高效的数值库,以Theano或Tensorflow为后端。这里,使用keras开发...

2018-07-11 17:08:36

阅读数:222

评论数:0

kaggle比赛 Dogs vs. Cats 使用Keras(Tensorflow)实践

注意:1、代码是在linux环境实践,tensorflow==1.6.0  keras==1.2.2 参考2、ResNet50,Xception,InceptionV3三个模型中,只有ResNet50可以使用,其他的两个无法下载使用3、比赛地址 https://www.kaggle.com/c/d...

2018-07-06 14:26:07

阅读数:295

评论数:0

linux+Anaconda+conda创建Keras(tensorflow)虚拟环境

#root用户安装 [root@node1 ~]#yum install -y lrzsz [root@node1 ~]#yum install -y bzip2 #以下内容可以普通用户安装1、Anaconda安装 Anaconda 安装包可以到清华 https://mirrors.tuna.ts...

2018-07-03 15:03:18

阅读数:262

评论数:0

陆奇:如何成为一个优秀的工程师?

虽然陆奇离开了,但在他担任 COO 的这段时间里,为百度铺好了一条通往人工智能的轨道,同时他也为百度留下了宝贵的精神财富。今天我们将陆奇曾经的一篇演讲重新发布出来,回顾陆奇在百度的这段时间里,如何贯彻自己成为一个优秀的工程师的理念。一位工程师,如何才能称得上优秀?除了写得一手好 Code,什么样的...

2018-05-22 20:55:02

阅读数:433

评论数:0

特征选择方法

# -*- coding: utf-8 -*- import pandas as pd from sklearn.model_selection import train_test_split import xgboost as xgb data=pd.read_csv('D:\\shop\...

2018-05-21 20:46:50

阅读数:132

评论数:0

SKlearn数据集转换之预处理数据

数据集转换之预处理数据:将输入的数据转化成机器学习算法可以使用的数据。包含特征提取和标准化。原因:数据集的标准化(服从均值为0方差为1的标准正态分布(高斯分布))是大多数机器学习算法的常见要求。如果原始数据不服从高斯分布,在预测时表现可能不好。在实践中,我们经常进行标准化(z-score 特征减去...

2018-05-21 20:33:21

阅读数:130

评论数:0

轻松理解箱形图

箱形图,也叫盒须图,盒式图,boxplot。有95%的把握猜中你现在已经不太确定,这图中有几条线?每条线代表什么意思?中间的那条线代表的究竟是算数平均数还是中位数,还是众数?再问的深点,箱形图存在的意义为何?之于数据分析的实践意义在哪里?接下来,带你从概念开始,一步步剖析箱形图以及背后的故事。1....

2018-04-11 16:41:57

阅读数:227

评论数:0

使用keras入门实践深度学习

可以参考 官方文档https://keras.io/首先,model = Sequential()是给神经网络起了头,后面的model.add()是一直加层。model.add(Activation('relu'))这个激活函数(Activation)keras提供了很多备选的,我这儿用的是ReL...

2018-03-17 15:44:23

阅读数:175

评论数:0

使用DBeaver连接hive

介绍 在hive命令行beeline中写一些很长的查询语句不是很方便,查询结果也不是很友好,于是找了一个hive的客户端界面工具DBeaver,它也支持很多符合JDBC连接的数据库,例如MySQL、Oracle等。下载地址:http://dbeaver.jkiss.org/download/ ...

2018-01-03 17:00:07

阅读数:1345

评论数:0

分类中的训练数据集不均衡问题处理

什么是数据不均衡? 在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子: ①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分类为class 1。 ②在三...

2017-11-20 20:08:14

阅读数:1489

评论数:0

获取hive表最新分区

在对时间要求比较高的流程中,往往会希望获取最新的分区数据。如果采用 select max(分区) as p from table_name; 获取分区,如果表很大时,时间代价很大;另外,如果直接从分区路径判断,虽然速度也会很快,当hive如何数据正在插入更新时被判断,极有可能会出现job还在进行,...

2017-10-17 20:00:02

阅读数:1783

评论数:0

通过Anaconda安装TensorFlow环境

安装 Anaconda : 参考 Anaconda安装 1、建立环境 建立一个 conda 计算环境名字叫tensorflow: # Python 2.7 $ conda create -n tensorflow python=2.7 # Python 3.4 $ conda create...

2017-10-13 16:00:56

阅读数:1156

评论数:0

centos使用libffm

如果你在使用centos6的时候,安装libffm出现各种问题,请直接到文章结尾查看解决方案,文章中间内容都是解决问题的流程。 下载gcc最新版 yum -y install gcc gcc-c++ wget http://ftp.gnu.org/gnu/gcc/gcc-4.8.1/...

2017-09-26 20:58:47

阅读数:432

评论数:0

使用scikit-learn tfidf计算词语权重

TF-IDF概述 TF-IDF是Term Frequency -  Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这...

2017-09-13 10:38:11

阅读数:4532

评论数:0

awk的使用及字符串的操作

awk教程 awk的基本功能是对文件进行指定规则浏览和抽取信息。 基本格式: (1) awk [-F 分隔域] 'command' input-file(s) (2) 写入shell脚本中 (3) awk -f awk-script-file input-file(s) 注意:这里...

2017-09-06 16:43:02

阅读数:1643

评论数:0

Kaggle房价预测案例分享

在Jupyter Notebook运行可以显示图 参考:https://github.com/AliceDudu/Kaggle-projects/blob/master/house-prices-advanced-regression-techniques/house-1-feature.ipyn...

2017-09-05 17:02:39

阅读数:1666

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭