花名:白起

科技改变世界,技术改变人生。

共享优秀博文及书单

网上的优秀教程及书籍有很多,之前一直使用收藏夹方式收藏,后来发现越来越多,导致优秀的教程自己也找不到了,本着共享精神,以后将优秀的教程链接及书单名称全部整理到这里,便于自己查找,也共享给其他朋友,共用进步,书单只提供书的名字,建议大家购买正版图书,如果此文有内容侵犯到作者权益,请联系我,最近觉得一...

2017-03-12 10:03:16

阅读数:766

评论数:0

决策树(ID3算法)的分析与实现

一、简介 决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘...

2017-03-30 17:47:39

阅读数:380

评论数:0

k最近邻算法(K-Nearest Neighbor)理解与python实现

numpy 模 块 参 考教程:http://old.sebug.net/paper/books/scipydoc/index.html 一:什么是KNN kNN算法全称是k-最近邻算法(K-Nearest Neighbor) kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的...

2017-03-30 17:42:05

阅读数:503

评论数:0

hive修改表模式

hive用户可以通过alter语句更改table属性 Alter Partitions 增加partitions:     ALTER TABLE table_name              ADD [IF NOT EXISTS]              PARTITION partiti...

2017-03-30 17:02:22

阅读数:195

评论数:0

使用spark mllib预测用户对电影的评分

实例目的:使用spark机器学习模型预测用户对mid的评分 1、训练数据格式(用户uid,电影mid,评分rating) $more train.csv 0,0,2 0,8,4 0,13,1 0,18,3 0,34,3 0,38,4 0,44,5 0,59,2 0,115,5 0,555,2 0...

2017-03-30 11:38:29

阅读数:816

评论数:0

DRBD脑裂问题处理记录

环境: DRBD资源池名称:jcluster 主节点primary 从节点secondary 挂载目录 /data 主要用到的命令: service drbd start service drbd stop service drbd status service mysqld stop ...

2017-03-30 10:39:29

阅读数:367

评论数:0

ambari中删除journalnode节点

之前谈过如何在ambari中增加journalnode节点服务,这篇将说明如何删除journalnode服务 说明: hadooptest 为集群的名字,不是HA的名字 http://10.11.32.53 为ambari管理界面 hadooptest.bj 为需要删除服务的主机 正常情况,首先...

2017-03-27 14:26:11

阅读数:788

评论数:0

hive update报错Attempt to do update or delete using transaction manager

hive安装后需要修改已建的表及查询操作,在执行修改操作时遇到了如下问题。 hive> update dp set name='beijing' where id=1159; FAILED: SemanticException [Error 10294]: Attempt to do...

2017-03-27 13:54:33

阅读数:2439

评论数:0

tomcat业务服务器内存使用高问题处理

问题描述: 一台服务器运行着3个tomcat,服务器内存为128G,有一天发现内存使用95%了, 网上搜索了下,说是通过设置环境变量来改变arena的数量,例如export MALLOC_ARENA_MAX=1 内容写的比较复杂,可能是glibc为了分配内存的性能的问题,也可能是JDK版本的问...

2017-03-23 10:19:00

阅读数:1168

评论数:0

Centos6没有GUI的情况下使用matplotlib绘图

最近在服务器上安装matplotlib,记录下: 首先matplotlib通过pip安装好了,网上很多不重复,我的环境是CentOS6.4 python2.6 系统自带的版本 import导入报错 >>>import matplotlib.pyplot as plt 报错: ...

2017-03-13 17:51:17

阅读数:1340

评论数:0

XGBoost:大杀器xgboost指南

原文:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-Python/ 一.xgboost的优点 1.正则化 xgboost在代价函数里加入了正则项,用于控制...

2017-03-10 11:28:54

阅读数:360

评论数:0

数据挖掘领域十大经典算法初探

以下就是从参加评选的18种候选算法中,最终决选出来的十大经典算法: 一、C4.5 C4.5,是机器学习算法中的一个分类决策树算法, 它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法 ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。 决策树构造方法...

2017-03-10 11:03:46

阅读数:143

评论数:0

XGBoost:多分类问题

下面用数据 UCI Dermatology dataset演示XGBoost的多分类问题 首先要安装好XGBoost的C++版本和相应的Python模块,然后执行如下脚本,如果本地没有训练所需要的数据,runexp.sh负责从https://archive.ics.uci.edu/ml/da...

2017-03-08 17:40:07

阅读数:610

评论数:0

XGBoost:二分类问题

二分类问题 本文介绍XGBoost的命令行使用方法。Python和R的使用方法见https://github.com/dmlc/xgboost/blob/master/doc/README.md 。 下面将介绍如何利用XGBoost解决二分类问题。以下使用的数据集见mushroom datas...

2017-03-08 17:37:57

阅读数:1582

评论数:0

XGBoost:参数解释

XGBoost参数 在运行XGboost之前,必须设置三种类型成熟:general parameters,booster parameters和task parameters: General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的bo...

2017-03-08 17:35:10

阅读数:177

评论数:0

XGBoost:在Python中使用XGBoost

在Python中使用XGBoost 下面将介绍XGBoost的Python模块,内容如下: * 编译及导入Python模块 * 数据接口 * 参数设置 * 训练模型l * 提前终止程序 * 预测 A walk through python example for UCI Mushroom da...

2017-03-08 17:30:46

阅读数:1149

评论数:0

CentOS6安装xgboost方法

1、升级系统GCC yum install gcc gcc-c++ 如果不安装gcc-c++,编译时候会报错如下: [root@server1 xgboost-0.47]# make -j4 g++ -c -Wall -O3 -msse2  -Wno-unknown-pragmas -funro...

2017-03-06 11:44:41

阅读数:2559

评论数:0

Hadoop Namenode元数据文件 Fsimage、editlog、seen_txid说明

Hadoop NameNode元数据的$dfs.namenode.name.dir/current/文件夹有几个文件: 1 |--current/ 2 |-- VERSION 3 |-- edits_* 4 |-- fsimage_0000000000008547077 5 |-- fsimag...

2017-03-03 18:34:42

阅读数:1364

评论数:0

ssh目录权限说明

如何ssh免秘钥登录在这里就不提了,网上很多,这里说明下,设置免秘钥登录后,仍然不能免秘钥登录的问题。 因为sshd为了安全,对属主的目录和文件权限有所要求。如果权限不对,则ssh的免密码登陆不生效。 用户目录权限为 755 或者 700,就是不能是77x、777,需要保障other用户不能有...

2017-03-02 15:25:55

阅读数:3238

评论数:0

Ambari1.7.0 + HDP2.1安装记录

一、准备工作 免秘钥 修改hostname、hosts文件 NTP设置 停止iptabels、selinux 停止THP 修改limit限制 yum install -y openssl bash lrzsz (以上内容请自行搜索) 二、下载yum源 cd /etc/yum.repos.d/ ...

2017-03-01 15:12:47

阅读数:405

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭