四木夕宁-CSDN博客

原创 ES集群监控总结

一、参考资料http://www.54tianzhisheng.cn/2017/10/18/ElasticSearch-nodes-metrics/ https://www.datadoghq.com/blog/monitor-elasticsearch-performance-metrics/#memory-usage-and-garbage-collection二、前言最近在研究ES集群监控方

2017-11-23 14:30:48 17613 1

原创 ESrally离线测试环境搭建

安装一、必要安装 Python31.下载2.解压3.安装 yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-develsudo mkdir /usr/local/python3sudo Python-3.5.0/configure --prefix=/usr/local

2017-09-28 15:20:05 6588 3

原创 Elasticsearch.5.4.1+kibana5.4.1+IK分词集群搭建

报错问题解决es安装过程中可能会遇到以下错误，对应解决方案错误1：max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536]修改：/etc/security/limits.conf* hard nofile 65536

2017-09-01 17:58:30 3199

原创返回第N大的数--Mysql（学习）

最近在做leetcode上数据库的题，如何返回第N大的值。题目如下： Write a SQL query to get the nth highest salary from the Employee table.+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300

2016-06-22 20:05:36 3915 2

原创 Centos 文件存储目录容量扩展

之前博客有关于CDH的安装教程，但是最近在使用集群的时候发现集群中的hdfs总的存储空间与规划有较大差异，后来发现是文件目录容量的问题。本篇博客主要讲解如何更改特定目录的存储空间大小。步骤：1. 查看文件系统据图，由于我的hdfs存储目录是在根目录"/"下，因此实际这个节点上的存储空间只有50G,但是可以看出在/dev/mapper/vg_slave7-lv_home下总空间有234G,大量的空间

2016-06-20 15:15:43 7186 1

原创 Hive1.2本地模式安装教程--hive学习

hive安装方式有内嵌方式、本地方式和远程方式。此次搭建hive的目的主要是项目需要学习hive，因此选用较为简单方便的本地模式。这个需要借助mysql，下面进入具体步骤。一、环境搭建1.hadoop搭建 hive其实工作原理就是将sql查询语句转换为mapreduce的程序，因此安装hadoop是前提，当然其中也包含jdk的安装以及相关的一些配置。本文不介绍hadoop安装，

2016-05-04 21:34:12 1982

原创 CDH5.7快速离线安装教程

一、简介 CDH是cloudera公司开发的一个快速部署、高效管理Hadoop和其各种组件的一个商业化产品。主要分为两部分，分别为Cloudera Manager和CDH软件包。其中Cloudera Manager负责集群的部署与管理。CDH软件包囊括了hdaoop各类的组件的安装包，例如hive、hdfs、spark等等。由于实验室服务器集群实现了硬件虚拟化，要在虚拟资源重新搭建CDH

2016-04-17 20:06:08 20252 9

原创 spark中flatMap函数用法--spark学习（基础）

说明在spark中map函数和flatMap函数是两个比较常用的函数。其中 map：对集合中每个元素进行操作。 flatMap：对集合中每个元素进行操作然后再扁平化。理解扁平化可以举个简单例子val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))arr.flatmap(x=>(x._1+x._2)).foreach(println)输出

2016-02-25 08:54:46 61266 13

原创 Centos6.7安装Navicat--Mysql学习

最近要用到数据库，之前一直没有怎么认真学习过，正好借这次学习的机会记录一下自己学习的过程。我选择练手的数据库是强大的Mysql，首先第一步当然是自己要搭一个mysql的平台了。我有一个原则，所以学习上的软件能装在linux上就绝不用windows，原因主要是windows如果重装了之后学习软件重新配环境会非常麻烦。好了闲话不多说。一、工具选择学习过mysql的都知道mysql分为服务器程序和客户

2016-01-11 13:52:52 5206 2

原创 MLlib回归算法（线性回归、决策树）实战演练--Spark学习（机器学习）

最近太忙，自己的机器学习进度耽误了两个星期，现在才把回归这一章看完。闲话不多说，本篇文章依旧是《Spark机器学习》中的内容。书上的代码全部是用python写的，但是由于我最近一直使用的是Scala，所以本篇博客使用的是scala，当然这样就没法像书中那样画图了。第六章将的是回归算法，主要用到的是线性回归与决策树算法，老规矩这里不讲原理（主要是自己讲不清楚），想知道原理的建议参考Andrew N

2015-12-21 21:59:49 19210 6

原创 MLlib分类算法实战演练--Spark学习（机器学习）

因为自身原因最近再学习spark MLlib，看的教材是《spark机器学习》，感觉这本书偏入门并且有很多实操，非常适合新手。下面就是我在学习到第五章关于分类算法的一些要点，最要是通过代码实操，具体算法原理就不介绍。一、数据来源及开发环境开发环境：为了方便代码管理这里使用了IDEA集成开发环境，单机进行代码调试感觉很方便嘛，主要环境与我前两篇博客中部署的环境一致。数据源：机

2015-12-12 20:39:31 6276 5

原创 IDEA部署Spark1.5.2开发环境--Spark学习（基础）

一、安装包1.ideaIC-15.0.1.tar.gz(社区版本免费) 2.scala-2.10.4.tgz切记scala版本选择要与官网一致，不然要出错（刚开始学习的时候在这里卡了很久）二、scala安装1.解压scala的gz安装包tar zxvf scala-2.10.4/sudo mv scala-2.10.4/ /opt/2.环境变量配置用vim打开/etc/profile添加配置

2015-12-07 21:42:25 1647

原创 Spark1.5.2安装--Spark学习（基础）

一直想学习着写博客做个备忘，但是一直懒也没有开始做，终于最近虚拟机的东西太多了想重新装一个虚拟机，由于自己是学数据挖掘的，就写一篇关于单机版spark的安装攻略来练练手。安装包准备spark原理什么的这里就不介绍了，有问题大家最好参考官方文档，网址为：这里写链接内容。本次安装主要用到的安装包如下： 1.spark-1.5.2-bin-hadoop2.6.tgz 2.hadoo

2015-12-03 21:17:33 2634

scala实现朴素贝叶斯算法

自己用scala实现的朴素贝叶斯算法。最近学习machine learning，由于之前学习了spark，于是使用scala尝试写写代码

2015-08-28

mysql-connector-java-5.1.26-bin.jar

2015-08-12

HTTP协议解析（提取URL、计算get post成功率、计算响应时延）

才学不久，参考了网上一些人写的代码自己摸索着写的。初学难免有错误，希望大家不吝指正代码说明：主要实现了提取特定pcap包中的http协议的url，并且计算了get、post成功率，计算了http协议响应的时延

2015-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人