2018年01月_浮生物语QAQ

11月 03月 02月 01月

原创 centos7 安装mysql

1. 下载mysql的安装源的RPM包下载地址：http://dev.mysql.com/downloads/repo/yum/ 2. 安装rpm源 yum localinstall mysql57-community-release-el7-11.noarch.rpm检查mysql是否安装成功 yum repolist enabled | grep “mysql

2018-01-26 14:18:25 243

转载如何给hadoop集群分配角色

转载自微信公众号Hadoop实操1.文档编写目的本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量，真实要部署的哪些服务，硬件资源，配置，以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时，CM会根据主机的可用资源，自动的分配角色到各台主机，边缘节点除外。你可以在向导中使用”自定义角色分配

2018-01-25 17:44:15 6850 1

原创 centos7下安装telnet服务

先查看是否安装Telnet [root@Hortonworks02 ~]# rpm -qa | grep telnet telnet-server-0.17-64.el7.x86_64 telnet-0.17-64.el7.x86_64若没有安装，则分别安装telnet 和 telnet-server [root@Hortonworks02 ~]# yum ins

2018-01-18 10:38:22 6598

原创 HDP 集群中flume与kafka的整合

首先保证flume与kafka正确安装并启动，这个比较简单，直接在ambari中添加新服务即可，不多赘述。配置flume新建一配置文件kafka.conf, 编辑，追加一下内容。 #扫描指定文件配置 agent.sources = s1 agent.channels = c1 agent.sinks = k1 agent.sources.s1.type=

2018-01-17 10:16:39 1795

原创 http服务停止导致Ambari添加服务失败

最近尝试使用ambari安装HDP集群，跌跌撞撞的终于安装成功了，在使用过程中也遇到了一些问题，这里记录之。尝试添加kafka服务，原本以为很简单的东西，事实证明报错了。果断查看日志。开始也并没有看出什么头绪，然后又尝试添加其他服务例如sqoop，mahout等，意外的是居然都失败了，看来并不是服务本身配置的问题了。再回过头仔细看日志，其中一句话。 “Cannot

2018-01-16 14:09:01 1242

原创 Phoenix介绍与安装

Phoenix简单介绍Apache Phoenix是构建在HBase之上的关系型数据库层，作为内嵌的客户端JDBC驱动用以对HBase中的数据进行低延迟访问。Apache Phoenix会将用户编写的sql查询编译为一系列的scan操作，最终产生通用的JDBC结果集返回给客户端。可以把Phoenix看做使用标准SQL连接hbase的工具，通过构建二级索引的方式，大大减低hbase查询的延时

2018-01-15 15:04:03 573

原创 yarn调优之内存分配

前几天刚刚装了一个HDP集群，在添加spark2服务以后，设置的3个thriftserver总是有一个报错，删除了一个thriftserver以后可以正常启动，原以为这样就能正常运行了，然而，并没有。昨天由于需要，运行了一个MR任务，奇怪的是任务总是被阻塞起（忽略红线）。可以看到，上面有两个thriftserver正在运行。于是乎，我手动停止了一个thriftserver。MR

2018-01-15 11:46:07 1714

转载 Ambari系统概述

前言Hadoop集群的管控一直是一个热门的话题，对于这样的一个应用场景，我所知道国内很早就有人研究并且取得不错的成绩，这就是EasyHadoop。它的功能主要有集群安装，管理，监控等功能，有兴趣的朋友可以百度，这位作者的博客有很详细的介绍。今天，我所要重点介绍的Apache的顶级项目，现在是大数据新贵Hortonworks公司在推进的项目Ambari，这款软件具有集群自动化安装、中心化管理、集

2018-01-09 16:49:53 625

原创 centos7 配置NTP服务器

NTP服务器是为了同步时钟周期，防止应为时钟的不一致引起的错误，常用与集群环境中。集群如下： server: Hortonworks01 client: Hortonworks02 Hortonworks03目的是集群时间同步到Hortonworks01。在所有节点上安装ntpd模块 yum install –y ntp在server 上执行：修改/etc/ntp.conf 修

2018-01-03 17:49:27 3550

Python计算机视觉配套的代码及数据

Python计算机视觉是相当好的一本书，由于csdn上面有，我就没上传，但是里面的配套数据找了好久都无果，发现网上很多人都在找，这里我把找到的结果上传到网上分享给大家，至于源代码是GitHub上面下的，属于附属品。

2018-01-26

常见聚类数据集人工数据和UCI数据都有

这里面是机器学习里面聚类所需的数据集，分为人工的二维数据集，如月牙形，双螺旋型等，和UCI真实数据集，是我搜集好久才弄出来的，有一些二维数据集是自己生成的，提供给大家做算法实验。

2018-01-26

Hadoop-Spark大数据处理技巧.pdf

大数据的目的是使用某种方法解决具体的问题，这本书指出了在大数据处理过程中的技巧话问题

2017-12-06

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点，着力于探寻Spark所要解决的主要问题及其解决办法，通过一系列精心设计的小实验来分析每一步背后的处理逻辑。, 《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行，对容错处理也进行了详细分析，有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后，读者可尽快掌握Spark技术。, 《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值；对于那些想从源码学习而又不知如何入手的读者，也不失为一种借鉴。

2017-12-06

贪吃蛇源代码

此代码详细的描述了贪吃蛇的基本代码，简单明了，思路清晰，一看懂

2012-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人