花名:白起

科技改变世界,技术改变人生。

排序:
默认
按更新时间
按访问量

共享优秀博文及书单

网上的优秀教程及书籍有很多,之前一直使用收藏夹方式收藏,后来发现越来越多,导致优秀的教程自己也找不到了,本着共享精神,以后将优秀的教程链接及书单名称全部整理到这里,便于自己查找,也共享给其他朋友,共用进步,书单只提供书的名字,建议大家购买正版图书,如果此文有内容侵犯到作者权益,请联系我,最近觉得一...

2017-03-12 10:03:16

阅读数:867

评论数:0

hive1.2版本设置队列问题

环境ambari的hadoop集群 使用如下命令设置队列,不生效 set mapreduce.job.queuename=hive; 之后再网上搜索了一下找到原因了,共享给需要的朋友,hive 1.2版本有引擎之说 查看引擎 hive> set hive.executi...

2018-10-11 10:44:32

阅读数:40

评论数:0

python将txt文件转为excel格式

因业务需要,将txt文件转换为excel文件,代码考虑了健壮性,分享一下,代码如下: 使用方法:sh txt2excel.sh file.txt [cl@master txt2excel]$ cat file.txt aaaa bbbb cccc dddd eeee [cl@maste...

2018-08-31 10:23:11

阅读数:129

评论数:3

python数据相关性分析实践

分析特征之间的相关性,得到哪个两个特征的具有关系,这样对于后期的数据分析可以提供帮助。 数据源示例: (每列都是一个特征,每行为一个用户) [10, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 5, 0] [4, 0, 0, 0, 0,...

2018-08-01 14:17:47

阅读数:211

评论数:0

kaggle比赛 Dogs vs. Cats 使用Keras(Tensorflow)实践

注意:1、代码是在linux环境实践,tensorflow==1.6.0  keras==1.2.2 参考2、ResNet50,Xception,InceptionV3三个模型中,只有ResNet50可以使用,其他的两个无法下载使用3、比赛地址 https://www.kaggle.com/c/d...

2018-07-06 14:26:07

阅读数:474

评论数:0

linux+Anaconda+conda创建Keras(tensorflow)虚拟环境

#root用户安装 [root@node1 ~]#yum install -y lrzsz [root@node1 ~]#yum install -y bzip2 #以下内容可以普通用户安装1、Anaconda安装 Anaconda 安装包可以到清华 https://mirrors.tuna.ts...

2018-07-03 15:03:18

阅读数:513

评论数:0

轻松理解箱形图

箱形图,也叫盒须图,盒式图,boxplot。有95%的把握猜中你现在已经不太确定,这图中有几条线?每条线代表什么意思?中间的那条线代表的究竟是算数平均数还是中位数,还是众数?再问的深点,箱形图存在的意义为何?之于数据分析的实践意义在哪里?接下来,带你从概念开始,一步步剖析箱形图以及背后的故事。1....

2018-04-11 16:41:57

阅读数:325

评论数:0

通过Anaconda安装TensorFlow环境

安装 Anaconda : 参考 Anaconda安装 1、建立环境 建立一个 conda 计算环境名字叫tensorflow: # Python 2.7 $ conda create -n tensorflow python=2.7 # Python 3.4 $ conda create...

2017-10-13 16:00:56

阅读数:1248

评论数:0

centos使用libffm

如果你在使用centos6的时候,安装libffm出现各种问题,请直接到文章结尾查看解决方案,文章中间内容都是解决问题的流程。 下载gcc最新版 yum -y install gcc gcc-c++ wget http://ftp.gnu.org/gnu/gcc/gcc-4.8.1/...

2017-09-26 20:58:47

阅读数:499

评论数:0

使用scikit-learn tfidf计算词语权重

TF-IDF概述 TF-IDF是Term Frequency -  Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这...

2017-09-13 10:38:11

阅读数:5933

评论数:0

Kaggle房价预测案例分享

在Jupyter Notebook运行可以显示图 参考:https://github.com/AliceDudu/Kaggle-projects/blob/master/house-prices-advanced-regression-techniques/house-1-feature.ipyn...

2017-09-05 17:02:39

阅读数:2071

评论数:1

spark RDD分区2GB限制(Size exceeds Integer.MAX_VALUE)

最近使用spark处理较大的数据文件,遇到了分区2G限制的问题,spark日志会报如下的日志: WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, 10.111.32.47): java.lang.Illega...

2017-08-25 15:17:32

阅读数:3038

评论数:0

GBDT+LR特征融合的例子

sklearn直接使用.apply即可完成,下面看下简单的例子。 import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.ensemble import GradientBoostin...

2017-08-14 20:22:30

阅读数:3938

评论数:0

将xgboost0.4升级到xgboost0.6版本

因为apply()方法需要xgboost0.6版本,本地是0.4版本的所以需要升级下,简单记录下: pip list pip install xgboost pip install --upgrade pip yum install gcc 升级到xgboost0.6版本 mkdir t...

2017-08-14 18:06:01

阅读数:860

评论数:0

通过hadoop streaming 输入两个文件或目录

通过Hadoop streaming写Mapreduce程序时,会遇到同时处理多个输入文件或者目录的的需求,那么如何在map程序中知道这一条内容到底来自哪个文件? 其实hadoop已经给留了解决方法:在map端获取环境变量mapreduce_map_input_file,即为本次的输入文件。 s...

2017-08-11 14:52:12

阅读数:2325

评论数:0

Linux非root用户安装Python及相关库

前提准备工作,通过root安装 yum install -y tkinter tk-devel gcc 下面是普通用户操作(用户lilei) 1、安装python python版本库https://www.python.org/ftp/python/,此处我选择2.7.9版本的...

2017-07-12 15:11:39

阅读数:3180

评论数:1

sklearn训练后使用pickle、joblib保存与恢复模型

在做模型训练的时候,尤其是在训练集上做交叉验证,通常想要将模型保存下来,然后放到独立的测试集上测试,下面介绍的是Python中训练模型的保存和再使用。 scikit-learn已经有了模型持久化的操作,导入joblib即可. from sklearn.externals import jobli...

2017-07-12 14:19:37

阅读数:3051

评论数:0

hadoop集群使用sklearn进行模型训练

为了证实sklearn可以放到hadoop上使用,特别进行了本次试验,但试验中遇到一个疑问,就是reducer节点只能设置为1,那么跟单机训练是否一样了,这个问题目前无法解答。但是,sklearn确实可以通过hadoop方式进行模型训练。 一、安装环境 服务器默认python版本 [root@h...

2017-06-09 16:23:07

阅读数:1741

评论数:3

sklearn与GBDT入门案例

GBDT概念自行网上搜索下,下面入门调用sklearn包中的GBDT 安装 SCIKIT-LEARN是一个基于Python/numpy/scipy的机器学习库 GBDT使用 这段代码展示了一个简单的GBDT调用过程 import numpy as np from sklearn.ensembl...

2017-06-08 15:39:09

阅读数:2424

评论数:0

nfs3方式挂载hdfs实现高可用存储

因为项目使用NFS共享,但是存在着单点故障,后来发现可以将hdfs目录挂载到本地,ambari HDP支持nfs,照着文档的说明去做,很简单完成了。 1.修改hdfs-site.xm vi /etc/hadoop/conf/hdfs-site.xml 如果没有hdfs-site.xml就找hdf...

2017-05-11 12:02:13

阅读数:1193

评论数:2

提示
确定要删除当前文章?
取消 删除
关闭
关闭