大数据
韩利鹏
大数据处理-java高级工程师
展开
-
Azkaban
Azkaban1. 概述1.1 为什么要是用工作流调度系统1.2 工作流的实现方式以及常见的工作流调度系统2. Azkaban介绍3. Azkaban安装3.1 准备工作3.2 安装3.2.1 azkaban web服务器安装3.2.2 azkaban 执行服器安装3.2.3 创建数据库和导入表结构3.2.4 创建SSL配置3.2.5 更改时区3.2.6 配置文件3.2.6.1 azkaban web服务器配置3.2.6.2 azkaban 执行服务器3.2.6.3 用户配置3.3 启动4. 实战4.1 C原创 2020-10-18 19:58:15 · 236 阅读 · 0 评论 -
Hadoop入门介绍
Hadoop入门介绍Hadoop背景介绍发展钱途什么是HadoopHadoop产生背景Hadoop生态圈国内应用用户画像HADOOP用于网站点击流日志数据挖掘大屏展示离线数据分析案例需求描述数据来源流程解析项目架构图项目效果图Hadoop背景介绍发展钱途什么是HadoopHADOOP是apache旗下的一套开源软件平台HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,...原创 2020-10-17 13:10:31 · 445 阅读 · 2 评论 -
Hadoop-HDFS课件
Hadoop-HDFS学习课件HDFS基本概念前沿HDFS的概念和特性HDFS-shellshell客户端使用客户端支持的命令参数HDFS-JAVA-API操作依赖引入windows下开发说明文件的增删操作使用流的形式访问文件HDFS基本概念前沿设计思想:==分而治之:==将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;在大数据系统中的作用...原创 2020-10-17 13:08:48 · 493 阅读 · 2 评论 -
Hadoop-MapReduce课件
Hadoop-MapReduce为什么要使用MapReduce实战篇程序运行模式本地模式集群运行模式eclipse提交到集群wordCount线段的重合点次数数据去重流量求和共同好友倒排索引求平均值分组求topnjoin篇优化篇combiner数据倾斜之数据打散原理篇数据切块yarn集群提交任务流程完整的任务流程 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的...原创 2020-10-17 13:04:34 · 591 阅读 · 0 评论 -
Hadoop集群环境搭建
Hadoop集群环境搭建本机基本配置网卡配置配置主机名关闭防火墙安装ssh客户端克隆虚拟机免密登陆安装jdk安装Hadoop集群本机基本配置网卡配置编辑如下文件配置主机名关闭防火墙安装ssh客户端克隆虚拟机免密登陆安装jdk安装Hadoop集群...原创 2020-10-17 12:54:49 · 162 阅读 · 0 评论 -
Hadoop高可用集群搭建
Hadoop高可用集群搭建(HA)1. 环境介绍1.1 版本说明1.2 集群规划1.3 HA说明2. HA集群安装配置2.1 搭建Hadoop前期工作2.2 搭建zookeeper2.2.1 解压zookeeper2.2.2修改配置2.2.3 拷贝zookeeper到其他节点2.3 安装配置Hadoop集群(在mini01上操作)2.3.1 解压Hadoop2.3.2 配置环境变量2.3.3 修改...原创 2020-10-17 12:52:49 · 130 阅读 · 0 评论 -
大数据面试题
1.你用过哪些机器学习/数据挖掘工具或框架? 2.你在项目中主要用过哪些机器学习/数据挖掘的算法? 3.给你公司内部群组的聊天记录,怎样区分出主管和员工? 4.海量数据分布在100台电脑中,如何高效统计出这批数据的TOP10? 5.100w个数中找出最大的100个数。 6.海量日志数据,提取出某日访问百度次数最多的那个IP。 7.路段平均车速反映了路况,在道路上布控采集车辆速度,如何对路原创 2017-12-18 09:20:17 · 788 阅读 · 0 评论 -
日志分析
对平台操作行为记录(现版本还没实施,等上线有需求,有数据了做) 这个主要通过日志进行记录,这个不是对用户进行展示的,是给我们内部去看的,用来改进我们的产品的。 主要进行要记录的日志信息有(这个根据需求来加)ipsessionid 日志级别 userid 点击时间 请求的url 请求的方式 操作的内容 失败的原因请求状态码每一次的点击都记录一条日志,把这些日志进行定...原创 2018-04-04 11:52:38 · 375 阅读 · 0 评论 -
国内有哪些大数据公司?
国内大数据公司名单汇总 大数据近几年来可谓蓬勃发展,它不仅是企业趋势,也是一个改变了人类生活的技术创新。大数据对行业用户的重要性也日益突出。掌握数据资产,进行智能化决策,已成为企业脱颖而出的关键。因此,越来越多的企业开始重视大数据战略布局,并重新定义自己的核心竞争力。本文整理了在中国境内活跃的大数据领域最具影响力的企业,它们有的是计算机或者互联网领域的巨头,有的则是刚刚创办不久的初创企业。但它...原创 2019-01-28 15:55:49 · 5483 阅读 · 2 评论 -
spark与spring集成做web接口
需要实现的功能:写访问spark的接口,也就是从web上输入网址就能把我们需要的信息通过提交一个job然后返回给我们json数据。 成果展示: 通过url请求,然后的到一个wordcount的json结果(借助的是谷歌浏览器postman插件显示的,直接在浏览器上输入网址是一样的效果) 使用的关键技术: java语言编程,springmvc框架,tomcat容器,spark框架,scala相原创 2017-11-03 14:40:47 · 9568 阅读 · 6 评论 -
ssh免密登陆脚本
运行脚本前面需要先配置好/etc/hosts文件的ip映射,这个脚本是根据hosts文件的ip进行免密登陆配置的 密码可以自己修改PWD_1 运行需要联网需要联网#!bin/bash#yum安装expectyum -y install expect#PWD_1是登陆密码,可以自己设定PWD_1=123456ips=$(cat /etc/hosts |grep -v "::" | gre原创 2016-10-11 20:07:26 · 2360 阅读 · 0 评论 -
Hadoop伪分布式集群的搭建
1,jdk安装,这里省略 2,安装Hadoop软件(直接加压就能使用,这里也不做解释) 3,主要说下需要配置那些文件修改etc/hadoop/core-site.xml: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </propert原创 2016-07-02 04:15:59 · 440 阅读 · 0 评论 -
Sequence小文件合并
把本地的多个小文件合并上传成大文件package sequenceFileText;import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.ne原创 2016-10-10 20:59:34 · 2173 阅读 · 0 评论 -
mr分类输出(MultipleOutputs)
原始数据:[INFO]127.0.0.1 2016-04-14 09:06:33 vi 200[DEBUG]127.0.0.1 2016-04-13 09:06:40 rm 200[FETAL]127.0.0.1 2016-04-12 09:14:54 vi 300[WARNING]127.0.0.1 2016-04-15 09:24:58 vi 200[INFO]127.0.0.1原创 2016-10-10 22:30:37 · 779 阅读 · 0 评论 -
MR简单串联(ChainMapper/ChainReducer)
元数据:(商品:价格)维护 23降低实际上低价低价 12合适的话 8328哈市 83299留下 10留下 9问题描述:第一步筛选出价格小于10000的数据 第二步筛选出价格小于100的 第三步合并相同商品的价格 第四部过滤商品名称的长度大于2的代码实现(mr的串联)package chainmapper;import java.io.IOException;import org.ap原创 2016-10-11 12:07:19 · 750 阅读 · 1 评论 -
HADOOP_PRC
服务public interface MyBiz extends VersionedProtocol { long PROTOCOL_VERSION = 12321443L; String hello(String name);}public class MyBizImpl implements MyBiz { @Override public long get原创 2016-11-03 12:18:06 · 378 阅读 · 0 评论 -
hadoop之hdfs api的简单使用
import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import org.apache.hadoop.conf.Configuration;im原创 2016-09-28 19:58:07 · 548 阅读 · 0 评论 -
从HDFS复制一个文件夹到HDFS
从HDFS复制一个文件夹到HDFSpublic class FileHandle { /** * 设置hadoop HDFS 初始化配置方法 * @throws IOException */ public static FileSystem init(){原创 2016-09-28 20:04:18 · 6323 阅读 · 0 评论 -
sentos安装hadoop集群完整版
总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs、mapreduce等主从关系。1、环境,3台CentOS7,64位,Hadoop2.7需要64位Linux,CentOS7 Minimal的ISO文件只有600M,操作系统十几分钟就可以安装完成, Master 192.168.0.182 Slave1 192.168.0.18原创 2016-09-23 22:41:36 · 1199 阅读 · 0 评论 -
mapreduce之倒排索引代码
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)mr实现(java):package invertedIndex;import java.io.原创 2016-10-02 20:17:03 · 747 阅读 · 0 评论 -
sqoop的简单实用
sqoop安装:安装在一台节点上就可以了。1.上传sqoop2.安装和配置 在添加sqoop到环境变量 将数据库连接驱动拷贝到$SQOOP_HOME/lib里 3.使用 第一类:数据库中的数据导入到HDFS上 sqoop import --connect jdbc:mysql://192.168.1.10:3306/itcast --username root原创 2016-10-03 21:44:44 · 642 阅读 · 0 评论 -
mapreduce二次排序
本代码几乎涵盖mapreduce的全部过程package secondarSort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;原创 2016-10-04 22:22:32 · 341 阅读 · 0 评论 -
Hbase shell命令简单使用
hbase shell命令的简单使用进入hbase命令行./hbase shell显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息,row key为rk0001,列族info中添加name列标示原创 2016-10-06 11:46:43 · 5998 阅读 · 0 评论 -
zookeeper和hadoop连接
单独安装hadoop或者zookeeper可以参考这两个博客 zookeeper的安装连接 http://blog.csdn.net/hanlipenghanlipeng/article/details/53157525 hadoop的安装地址http://blog.csdn.net/hanlipenghanlipeng/article/details/51960235 hadoop的安装连原创 2016-11-14 12:23:49 · 4506 阅读 · 2 评论 -
Hadoop集群环境搭建
1.准备Linux环境(**如果是学生的话建议去买一台腾讯云的主机,学生购机每月1元,省去了好多麻烦事**) 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到wi原创 2016-06-29 14:39:03 · 481 阅读 · 0 评论