2018年01月_麦才坚

原创 SQL优化（修改版）

一.优化建议1，如果数据是以时间序列方式增长的，建议使用分区表，如create table par_good (name var(10),id int) partitioned by date_p string2.不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算，否则系统将可能无法正确使用索引。 3.在使用索引字段作为条件时，如果该索引是复合索引，那么必须使用到该

2018-01-28 21:42:38 206

原创 PHP 执行shell 脚本，常见问题

php调用shell脚本1）exec()原型: string exec ( string $command [, array &$output [, int &$return_var ］ )说明: exec执行系统外部命令时不会输出结果，而是返回结果的最后一行。如果想得到结果，可以使用第二个参数，让其输出到指定的数组。此数组一个记录代表输出的一行。即如果输出结果有20行，则这个数组就有

2018-01-28 15:26:06 8102 1

原创 ajax+servlet实现向服务端上传文件

客户端代码：maicaijianhello world //action的服务URL改成你自己的分段读取文件： /** 分段读取文件为blob ，并使用a

2018-01-28 11:25:05 2885 2

原创决策树的应用

import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.tree.DecisionTreeimport org.apache.spark.mllib.util.MLUtilsimport org

2018-01-25 11:53:01 471

原创患病预测算法

import org.apache.spark.mllib.classification.LogisticRegressionWithSGDimport org.apache.spark.mllib.evaluation.MulticlassMetricsimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.m

2018-01-24 21:57:15 1012

原创逻辑回归

package xyz.ixiaoban.bigdata.suanfaimport org.apache.spark.mllib.classification.LogisticRegressionWithSGDimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.util.MLU

2018-01-24 21:33:14 211

原创线性回归模板代码

程序如下：package xyz.ixiaoban.bigdata.sparkimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD}import org.apache.spark.{SparkC

2018-01-24 20:34:02 249

转载自定义的inputformat和outputformat举例

1. 自定义inputFormat1.1 需求无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案 1.2 分析小文件的优化无非以下几种方式：1、在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS2、在业务处理之前，在HDFS上使用mapreduce程序对小文件进行合并3、在m

2018-01-23 22:05:53 1294

原创 web日志预处理（hadoop java）

web日志预处理1、需求：对web访问日志中的各字段识别切分去除日志中不合法的记录根据KPI统计需求，生成各类访问请求过滤数据 2、实现代码：a) 定义一个bean，用来记录日志数据中的各数据字段public class WebLogBean { private String remote_addr;// 记录客户端的ip地址

2018-01-23 21:56:14 1122

原创 hadoop在本地上运行调试的配置

（1）mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行（2）而处理的数据及输出结果可以在本地文件系统，也可以在hdfs上（3）怎样实现本地运行？写一个程序，不要带集群的配置文件（本质是你的mr程序的conf中是否有mapreduce.framework.name=local以及yarn.resourcemanager.hostname参数）（4）本地

2018-01-23 21:37:33 885

原创随机梯度下降算法

随机梯度的下降算法：（类似补偿算法）算法实现如下：package tideimport scala.collection.mutableobject SGD{ val data=mutable.HashMap[Int,Int]() def getdata():mutable.HashMap[Int,Int]={ //生成数据集，数

2018-01-23 21:15:50 440

原创实现分布式应用的(主节点HA)及客户端动态更新主节点状态

实现分布式应用的(主节点HA)及客户端动态更新主节点状态某分布式系统中，主节点可以有多台，可以动态上下线任意一台客户端都能实时感知到主节点服务器的上下线 A、客户端实现public class AppClient {private String groupNode = "sgroup";private ZooKeeper zk;private Sta

2018-01-22 15:11:37 658 2

原创 zookeeper的选举机制

1.1. zookeeper的选举机制（全新集群paxos）以一个简单的例子来说明整个选举的过程.假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的.假设这些服务器依序启动,来看看会发生什么.1) 服务器1启动,此时只有它一台服务器启动了,它发出去的报没有任何响应,所以它的选举状态一直是LOOK

2018-01-22 14:15:08 292

原创在oracle中遇到TNS错误问题怎么办

解决步骤：1，点击开始——运行，然后输入services.msc ,在服务管理器中启动oracle监听器，oracletnslistener，同时启动oracleservicexxxx，xxx2，配置sid，可以在电脑系统中高级设置，设置环境变量，新增环境变量名为，oracle_sid ，变量指为xxxx xxxx表示的是数据库实例名

2018-01-22 14:11:48 1128

原创 zookeeper API 的基本使用

public class SimpleDemo {// 会话超时时间，设置为与系统默认时间一致private static final int SESSION_TIMEOUT = 30000;// 创建 ZooKeeper 实例ZooKeeper zk;// 创建 Watcher 实例Watcher wh = new Watcher() {public void pro

2018-01-22 14:03:28 360

原创 zookeeper的安装

1.1.1. 机器部署安装到3台虚拟机上安装好JDK 1.1.2. 上传可以使用xshell+xftp5的方式上传文件1.1.3. 解压su – hadoop（切换到hadoop用户）tar -zxvf zookeeper-3.4.5.tar.gz（解压） 1.1.4. 重命名mv zookeeper-3.4.5 zookeepe

2018-01-22 13:48:10 146

转载 hdfs详解

******HDFS基本概念篇******1. HDFS前言l 设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析； l 在大数据系统中作用：为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务 l 重点概念：文件切块，副本存放，元数据 2. HDFS的概念

2018-01-21 21:30:25 258

原创 ajax+servlet实现数据可视化

一.建立服务端 servlet的程序如下： import java.io.IOException;import java.util.*;import javax.servlet.ServletException;import javax.servlet.http.HttpServlet;import javax.servlet.http.HttpServlet

2018-01-21 21:14:48 598

原创 hadoop wordcount 详解

mapreduce hadoop中的分布式运算编程框架，只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序Demo开发——wordcount1、需求从大量（比如T级别）文本文件中，统计出每一个单词出现的总次数 2、mapreduce实现思路Map阶段：a) 从HDFS的源数据文件中逐行读取数据b) 将每一行数据切分出单词c)

2018-01-21 20:42:07 713

原创 hadoop集群搭建

HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起HDFS集群：负责海量数据的存储，集群中的角色主要有 NameNode / DataNodeYARN集群：负责海量数据运算时的资源调度，集群中的角色主要有 ResourceManager /NodeManager本集群搭建为例，以5节点为例进行搭建，角色分配如下：

2018-01-21 20:22:42 275

m0_37786726的博客