大数据+机器学习+oracle
文章平均质量分 69
大数据技术总结和分享,更好的学习新的知识,与同行共同进步
蘑菇丁
每份经历,不管是顺境还是坎坷,都会增加生命的厚度。
世界很小,请带着梦想一起奔跑。
世界很大,请带着坚持努力成长!
勇于挑战,不断突破自我!加油!!!
建了一个大数据运维群,各位大数据运维的同学可以一起讨论 群号584912368
https://github.com/liangjingbin99/shouhuo/tree/master/%E7%AC%AC02%E7%AB%A0
展开
-
Hue中添加hive自定义函数
hue目前因为开启sentry 后不能add jar语句,目前只能用永久函数解决该问题。具体方法如下:首先把文件上传hdfshdfs dfs -put授权beeline> !connect jdbc:hive2://10.5.xx.xx:2500GRANT ALL ON URI 'hdfs://xxx:8020/tmp.db/function/Dmo.jar' TO ROLE read;创建函数create function tmp.Dmo as 'com.Dmo' usi...原创 2020-08-25 16:46:14 · 748 阅读 · 0 评论 -
Hadoop集群之flume安装配置
Hadoop集群之flume安装配置1. 官方文档http://flume.apache.org/ 2. 配置环境变量vi /etc/profile#set flumexport FLUME_HOME=/opt/hadoop/flume-binexport FLUME_CONF_DIR=$FLUME_HOME/confexport PATH=$PATH:$FLUME原创 2016-10-13 11:16:43 · 3765 阅读 · 0 评论 -
ambari 安装
1.ambari 官网地址:http://ambari.apache.org2.下载ambari[hadoop@slavenode7 hadoop]$ wget http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.0.1/ambari.repo100%[=========================原创 2016-10-14 10:52:12 · 4280 阅读 · 1 评论 -
Spark集群基于Zookeeper的HA搭建部署
官方文档http://spark.apache.org/docs/latest/monitoring.html下载地址http://flume.apache.org/download.html安装Scala(在master上)[hadoop@masternode1 hadoop]# tar -xvzf scala-2.11.8.tgz [hadoop@masternode1 h原创 2016-10-21 13:49:02 · 1156 阅读 · 0 评论 -
ganglia安装和配置监控hadoop,hbase,spark
hadoop平台是原生态安装的,安装完各模块发现没有统一监控界面,经网上查询说ganglia是个不错的选择,开始在网上大量搜索关于如何用ganglia监控的资料,碰到各种报错,就是出不来想要的结果,拿就用最原始的方法,看沉下心来看官方文档,理解参数的意义,各种尝试组合,终于在3天下班的前一刻出来自己想要的结果,也许现在的理解还不是最准确的,但是为了以后更好的研究,暂时把自己安装的过程记录下来以便后原创 2016-10-21 15:04:28 · 2343 阅读 · 0 评论 -
Sqoop-1.99.7安装部署
Sqoop安装部署官方文档:http://sqoop.apache.org/下载地址[hadoop@slavenode8 hadoop]$ wget http://apache.fayea.com/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gz 设置环境变量[hadoop@slavenode8 sqoop-1.99.7]$ vi ~原创 2016-10-26 14:12:01 · 3786 阅读 · 1 评论 -
安装CDH5.7.1集群
Hadoop版本选择目前Hadoop比较流行的主要有2个版本,Apache和Cloudera版本。Apache Hadoop:维护人员比较多,更新频率比较快,但是稳定性比较差。Cloudera Hadoop(CDH):CDH:Cloudera公司的发行版本,基于ApacheHadoop的二次开发,优化了组件兼容和交互接口、简化安装配置、增加Cloudera兼容特性。 准备工作以...原创 2016-11-03 17:35:18 · 1399 阅读 · 0 评论 -
hadoop测试namenode 主机点失效及恢复测试
1.从本地拷贝 100 个 100MB 的文件到 HDFS; 2.在文件拷贝过程中,停止主 NameNode 所在节点的 NameNode 进程,模 拟故障; 3.观察客户端日志文件发现故障; 4.文件拷贝完成后,将 100 个文件复制到本地,检测文件的一致性;1.首先生产一个100个100M的文件dd if=~/CDH-5.7.1-1.cdh5.7.1.p0.11-e原创 2016-11-09 15:50:08 · 1221 阅读 · 0 评论 -
hadoop组件书籍列表
hbase书籍http://abloz.com/hbase/book.html原创 2016-11-09 16:22:39 · 482 阅读 · 0 评论 -
HMaster 节点失效及恢复测试
1.每隔 1 秒并行地对 t1 执行 scan 和 put 数据操作;2.停止主 HMaster 所在节点的进程,停止该节点上的 HMaster 进程;3. 主备切换过程中,观察 HBase 客户端日志,读写操作执行状态和 HMaster倒换时间;4.倒换完成,检查倒换告警信息是否上报正确;杀掉hbase主节点[hadoop@masternode1 test]$ jps原创 2016-11-09 17:23:54 · 3521 阅读 · 0 评论 -
hadoop常用命令
查看CPU:cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c查看内存:free –m查看磁盘:df -m处理器信息:dmidecode | grep -A48 'Processor Information$'查看目录的大小[hadoop@masternode1 ~]$ hdfs dfs -ls /Found 8原创 2016-11-10 11:46:52 · 1227 阅读 · 0 评论 -
hdfs快照备份恢复
生产10G文件[hadoop@masternode1 ~]$ dd if=/dev/zero of=/home/hadoop/a.txt bs=100M count=100记录了100+0 的读入记录了100+0 的写出10485760000字节(10 GB)已复制,64.0325 秒,164 MB/秒向hdfs上传10G文件[hadoop@masternode1 ~]原创 2016-11-10 16:07:17 · 1857 阅读 · 0 评论 -
hadoop自动安装的脚本与步骤
最近要在10几台机器上安装hadoop。对于这种繁复而重复的工作,一步步的打命令行,对于程序员来说是一件不能忍的事情。所以我就琢磨着怎么写一个脚本来自动安装hadoop。任务: 在10几台机器上中的任意一台执行脚本,即可安装好hadoop。条件: 每台机器的用户名和密码都是一样的。每台机器都配置好了ssh,能够远程登录。解决思路: 1. 首先读取配置文件,读取到节点的ip和想要的转载 2016-11-16 10:55:14 · 1227 阅读 · 0 评论 -
对Imapla&Spark2.0.0SQL进行TPC-DS性能测试
1. tpcds_test_gentable There are two parts of this Unix-Shell project.Part-1: Building the tpcds-gen-.jar, recently version=1.1 is up to date.Part-2: Generating the tpcds flat data, creating t转载 2016-11-17 12:58:50 · 6621 阅读 · 3 评论 -
wordcount 运行
开启kerberos身份验证后,root账号没有了执行hdfs写的权限[root@masternode1 centos]# hadoop jar /opt/cloudera/parcels/CDH-5.7.1-1.cdh5.7.1.p0.11/jars/hadoop-mapreduce-examples-2.6.0-cdh5.7.1.jar wordcount/input /outpu原创 2016-11-23 18:05:21 · 801 阅读 · 3 评论 -
zookeeper安装
1.下载地址:http://mirror.bjtu.edu.cn/apache/zookeeper/zookeeper-3.4.8/zookeeper-3.4.8.tar.gz官方文档http://zookeeper.apache.org/2.zookeepe 安装① 上传软件并解压把zookeeper-3.4.8.tar.gz文件存放在/opt/hadoop目录下,进行解原创 2016-12-14 15:38:17 · 744 阅读 · 0 评论 -
cdh5.7.1如何开启kerberos
最近因为项目需要,需要对用户权限做限制,最终选择了kerberos+sentry+hue模式来管理用户,但是这个kerberos实在搞得我头大的不行,在网上找各种资料,怎么配置都不行,后来索性静下心来研究官方文档,在经历3天的痛苦折腾之后,终于实现了成功启动kerberos,为了各位能少走弯路我把我的经验写出来,供有缘人借鉴并少走弯路。其实自己走了一遍后,真的是很简单,只是我自己当初想的太复杂原创 2016-12-18 12:56:25 · 5851 阅读 · 0 评论 -
BigDataBenchs测试
最近做一个数据联盟认证用到BigDataBechens测试。准备条件下载地址:http://prof.ict.ac.cn/BigDataBench/old/2.0/index-zn.html 选择软件版本:BigDataBench_V3.2.5_Spark.tar.gz由于需要测试spack 所以需要安装jdk,scala注意:版本兼容问题,scala-2.11.8.tgz原创 2016-12-27 14:22:31 · 3010 阅读 · 2 评论 -
NTP服务器时间同步
1. NTP服务器时间同步⑴ vi /etc/ntp.conf restrict 127.0.0.1 restrict -6 ::1restrict 10.1.4.130 mask 255.255.255.0 nomodify notrapserver 127.127.1.0 # local clockfudge 127.127.1.0 stratum 1原创 2017-01-04 16:13:05 · 954 阅读 · 0 评论 -
hadoop集群安装ES(ElasticSearch 5.0.2)
配置/etc/hosts,ntp服务,免密码登录,关闭防火墙这里不做详细说明。安装java环境[root@manager ~]# mkdir /usr/java[root@manager ~]# cd /opt/[root@manager hadoop]# tar xvf jdk-8u91-linux-x64.tar.gz -C /usr/java编辑"/etc/pro原创 2017-01-05 14:54:47 · 4757 阅读 · 0 评论 -
传统数据库同步数据到HDFS
通过命令或者脚本方式加载例如oracle, db2, vertica,mysql,gbase等数据库数据到系统中。(供大家选择至少一款传统数据库)大数据平台测试环境(图1)1、Hadoop集群正常运行2、执行查询SQL语句,显示结果3、从传统数据库同步数据到HDFS4、用SQL引擎执行查询SQL语句,显示结果[root@manager ~]# mysql -hmanager原创 2017-01-19 15:21:24 · 2574 阅读 · 0 评论 -
从HDFS导入数据到HBASE
数据库的执行能力第一种方式从HDFS导入数据到HBASE步骤:先从HDFS导入到MYSQL再到HBASE创建OS_ORDER2表create table OS_ORDER2(ORDER_ID int,ORDER_CODE bigint,BUYER_ID int ,CREATE_DT varchar(50),PAY_DT varchar(50),CREATE_IP varchar(3原创 2017-01-22 15:41:22 · 4316 阅读 · 0 评论 -
elasticsearch5 插件ik安装
Ik安装文档如下:1.下载安装包https://github.com/medcl/elasticsearch-analysis-ik/releases wget https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v5.0.2/elasticsearch-analysis-ik-5.0.2.zip在el原创 2017-01-22 15:49:30 · 4549 阅读 · 0 评论 -
cdh5.10新特性
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_new_in_cdh_510.html#impala_new_features一、hbase1.已添加复制调试功能。2. G1垃圾收集性能得到提高二、hive1.自动配置所有组件的S3的Hue连接。三、Impal翻译 2017-02-13 17:59:58 · 3297 阅读 · 0 评论 -
elasticsearch集群生态介绍,分片及其水平扩展
出自:[http://www.cnblogs.com/dennisit/p/4133131.html],自己保留一份。elasticsearch用于构建高可用和可扩展的系统。扩展的方式可以是购买更好的服务器(纵向扩展)或者购买更多的服务器(横向扩展),Elasticsearch能从更强大的硬件中获得更好的性能,但是纵向扩展也有一定的局限性。真正的扩展应该是横向的,它通过增加节点来传播负载和翻译 2017-03-22 15:42:25 · 323 阅读 · 0 评论 -
elasticsearch磁盘空间满了故障处理思路
昨天接到客户投诉说ES数据目录已达到100%了,当时第一想法监控组怎么监控的80%报警为什么没有监控出啦,经问,监测组是几天前接到报警,并忽略了,我当时那个崩溃,并有想骂人的冲动,这是现网,不是测试时环境,竟然有这么不负责的同事我也是醉的,我登录服务器一看磁盘空间最糟的100%,另几个99%,刚搭建两个月的集群出现空间不足,当时说没有这么大的数据量,我自己给自己挖了一个大坑,把数据存在一个磁盘上。原创 2017-03-24 13:39:21 · 25585 阅读 · 5 评论 -
Elasticsearch Recovery详解
在Eleasticsearch中recovery指的就是一个索引的分片分配到另外一个节点的过程;一般在快照恢复、索引副本数变更、节点故障、节点重启时发生。由于master保存整个集群的状态信息,因此可以判断出哪些shard需要做再分配,以及分配到哪个结点,例如:如果某个shard主分片在,副分片所在结点挂了,那么选择另外一个可用结点,将副分片分配(allocate)上去,然后进行主从分转载 2017-03-27 09:45:19 · 1247 阅读 · 0 评论 -
CDH 基本环境安装脚本
测试过的脚本[root@name01 ~]# cat filelist 格式ip 主机名 用户名 密码17.1.5.12 name02 root qwer[root@name01 ~]# cat 4.txt 17.1.5.12#!/bin/bashfilelist=/root/filelistssh-keygen -f ~/.ssh/id_rsa -P原创 2017-04-28 17:51:48 · 513 阅读 · 0 评论 -
naivebayes 性能测试
1. 安装软件 yum -y install gcc gcc-c++ libstdc++-develbison byacc flex cd /opt/BigDataBench_V3.2.5_Spark/BigDataGeneratorSuite/Text_datagen [root@namenode2 Text_datagen]# tar zxvfgsl-1.15.tar.gz原创 2017-05-11 17:40:18 · 690 阅读 · 0 评论 -
ambari 离线安装
先明确几个概念:1. Ambari只能安装Hortonworks Data Platform,即Hortonworks的开源Hadoop,不支持Apach的Hadoop平台;2. 对于已经安装了Apach Hadoop或者其他Hadoop平台的,不能使用Ambari来管理; 再说几个注意事项:1. Ambari默认的安装方式是使用yum,从远程下载HDP组件安装,而HDP平台安原创 2017-05-25 10:51:33 · 10771 阅读 · 0 评论 -
hadoop HDFS存储原理
来源url:http://www.36dsj.com/archives/41391根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;转载 2017-06-01 10:17:25 · 789 阅读 · 1 评论 -
spark2如何集成到cdh里
最近做性能测试需要spark2测试下和spark1.6性能有多大差别,官方文档里写着可以集成,但是自己怎么搞都不行,折磨了3天的时间,目前终于把spark2集成到集群里了我安装的是最新版本的下载spark2安装包wget http://archive.cloudera.com/beta/spark2/parcels/latest/SPARK2-2.0.0.cloudera.beta原创 2017-06-14 11:04:04 · 6981 阅读 · 13 评论 -
安装spark-bench
git clone https://github.com/SparkTC/spark-bench.gitcd spark-bench/mvn package install[root@datanode01 bin]# pwd/opt/spark-bench/bin[root@datanode01 bin]# ./build-all.sh [root@原创 2017-06-23 09:29:49 · 2093 阅读 · 0 评论 -
研究tableas可视化破解博客
http://blog.csdn.net/bdchome/article/details/54136926原创 2017-07-14 17:35:30 · 288 阅读 · 0 评论 -
cdh安装hadoop平台根目录空间不足如何解决
目前大部分公司安装操作系统时给根仅有50G,但是cdh的lib 和日志都放在/var下,时间长了空间会爆解决方法:1.至少给根100G的空间2.只能做软连接连到其他盘阵下具体操作步骤如下:/data是外挂的盘阵后者你自己大的路径cp -r -p /var/log /data/;mv /var/log /var/log_bak;cd /var/ ;ln -s /data原创 2017-07-19 16:27:54 · 2705 阅读 · 0 评论 -
PIP安装Tensorflow
最近研究自动化摘要,因此需要用到Tensorflow,现将安装步骤记录下1.下载CRF++-0.58.tar.gz2.cd到压缩包目录,执行: (1) tar zxvf CRF++-0.58.tar.gz (2)cd CRF++-0.58 (3)./configure (4)make (5)su (6)make install3.进入子目录Pyth原创 2017-08-03 18:25:01 · 1377 阅读 · 0 评论 -
kafka-manager 安装
1.安装sbt编译环境[root@namenode01 kafka-manager]# curl https://bintray.com/sbt/rpm/rpm |tee /etc/yum.repos.d/bintray-sbt-rpm.repo % Total % Received % Xferd Average Speed Time Time Time C原创 2017-08-23 15:23:37 · 1092 阅读 · 0 评论 -
python爬虫网站图片
1.创建斗鱼工程[root@namenode02 mySpider]# scrapy startproject douyuNew Scrapy project 'douyu', using template directory '/usr/lib64/python2.7/site-packages/scrapy/templates/project', created in: /r原创 2017-08-28 18:08:31 · 547 阅读 · 0 评论 -
java 操作hdfs api
package com.ecloud;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.commons.compress.utils.IOUtils;import org.apache.hadoop.conf.Co原创 2017-12-04 18:03:12 · 263 阅读 · 0 评论 -
java 编写mllib kmean算子
package com.ecloud;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.mllib.clustering.KMe原创 2017-12-08 09:11:36 · 376 阅读 · 0 评论