白墨Blake
码龄12年
关注
提问 私信
  • 博客:89,971
    社区:195
    动态:23
    90,189
    总访问量
  • 80
    原创
  • 1,189,752
    排名
  • 24
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2013-02-19
博客简介:

白墨的小白博客

博客描述:
一只小白的成长之路
查看详细资料
个人成就
  • 获得69次点赞
  • 内容获得13次评论
  • 获得208次收藏
  • 代码片获得119次分享
创作历程
  • 5篇
    2019年
  • 75篇
    2018年
成就勋章
TA的专栏
  • 大数据
    4篇
  • Java学习
    60篇
  • MySQL学习
    3篇
  • HTML
    1篇
  • Linux
    8篇
兴趣领域 设置
  • 大数据
    hadoop
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

JAVA自定义排序

import java.util.Arrays;//实现Comparable接口可以进行比较大小public class People implements Comparable<People>{ private String name; private Integer age; public People(String name, Integer a...
原创
发布博客 2019.09.27 ·
936 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ip-action.dat MR练习数据资源

发布资源 2019.09.27 ·
dat

MapReduce练习IpAction

统计每个 ip 做了多少次 操作统计每个 操作,执行了多少次每个 ip 的每个操作 执行了多少次(包括分区)192.168.10.109 这个 ip 执行了多少次操作每个 ip 的每个操作 执行了多少次,只看次数大于 400 的ip-action数据文件下载:...
原创
发布博客 2019.09.27 ·
248 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

MapReduce保存计算结果到数据库

------------- 创建数据库和表 ---------------mysql -u root -p 登录数据库create database if not existsii; 创建数据库useii; 使用数据库create table if not exists `ii` ( `id` int primary key auto_increment, `word` varc...
原创
发布博客 2019.09.27 ·
833 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

MapReduce的优化

Map Join:在 Map 阶段拼接数据,效率高,只适合一个文件小到能够读取到内存中job: 1. 添加小文间到 classpath job.addFileToClassPath() map: 1. 在 setup 读取小文间的内容,保存到内存中的 HashMap 中 以 关联条件为 key,其它字段为 value ...
原创
发布博客 2019.09.27 ·
219 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce的排序

排序是数据分析中最常用的操作,没有之一。单字段升序:利用 mapreduce 自身的排序机制,把需要排序的字段作为 key 即可自定义排序规则: 方案一:自定义 key 1. 自定义类实现 WritableComparable 接口,设置泛型为自定义类 2. 声明需要排序的字段,添加 setter && getter 3...
原创
发布博客 2019.09.27 ·
792 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用Scala编写Map Reduce的模板

def main(args: Array[String]): Unit = { //1.配置 spark 任务相关信息 val sparkConf = new SparkConf(); //配置人物名字 sparkConf.setAppName(&quot;word count&quot;) //配置运行模式:本地模式 sparkConf.setMaster(...
原创
发布博客 2018.12.26 ·
631 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

使用HQL分析数据的脚本

清洗数据#!/bin/bashhadoop jar jar路径 类路径.NginxAccessETL $1hive -e "USE 数据库;CREATE TABLE IF NOT EXISTS dwb_nginx_access_log( ip string, time string, path string)PA...
原创
发布博客 2018.12.13 ·
1099 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

使用HQL分析数据的脚本

清洗数据#!/bin/bashhadoop jar jar路径 类路径.NginxAccessETL $1hive -e "USE 数据库;CREATE TABLE IF NOT EXISTS dwb_nginx_access_log( ip string, time string, path string)PA...
原创
发布博客 2018.12.13 ·
1099 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

数据分析—排序

排序是数据分析中最常用的操作,没有之一。单字段升序: 利用 mapreduce 自身的排序机制,把需要排序的字段作为 key 即可其它排序:自定义排序规则 方案一:自定义 key 1. 自定义类实现 WritableComparable 接口,设置泛型为自定义类 2. 声明需要排序的字段,添加 setter &amp;&amp; getter ...
原创
发布博客 2018.12.04 ·
988 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

WordCount代码模板

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable...
原创
发布博客 2018.12.03 ·
415 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce的使用

MapReduce:分布式离线计算框架**分布式:**程序多节点(resourceManager 和 nodeManager)多角色(map 和 reduce)组成**离线:**计算过程中产生中间数据,会保存在硬盘上**计算框架:**提供了一个编程模型,可以很轻松的实现分布式数据分析程序使用 MapReduce 需要先启动 hdfs 和 yarn: 1. 启动 3 个节点的 zoo...
原创
发布博客 2018.12.03 ·
1268 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Java中HBase的使用

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.*;import org.apache.hadoop.hbase.util.Byt...
原创
发布博客 2018.11.29 ·
996 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Java中HBase的使用

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.*;import org.apache.hadoop.hbase.util.Byt...
原创
发布博客 2018.11.29 ·
996 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Linux 安装 redis

安装 redis:1. 下载:http://www.redis.cn/2. 上传到 root,解压3. 安装编译 redis 需要的 gcc-c++ 和 tcl 软件 yum install -y gcc-c++ yum install -y tcl4. 进入解压后的目录,使用 make 命令编译源代码5. 使用 make test 测试是否缺少依赖 缺什么用 y...
原创
发布博客 2018.11.23 ·
268 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux中Hadoop 集群搭建

零、下载Hadoop:http://archive.cloudera.com/cdh5/cdh/5/?tdsourcetag=s_pctim_aiomsg一、集群规划:搭建的 hadoop 集群由 3 台服务器组成,分别叫做 master,salve1 和 slave2。其中 master 作为主节点,slave1 和 slave2 作为从节点。二、网络配置:1.查看 3 个节点的主机名...
原创
发布博客 2018.11.22 ·
3804 阅读 ·
6 点赞 ·
1 评论 ·
39 收藏

Linux 发布项目(发现问题)

1. 需要服务器 —&gt; 安装 Linux(master)2. 需要 tomcat 和 mysql —&gt; jdk, tomcat, mysql3. 打包 web 项目上传到 webapps一台服务器达到性能上限,进行扩容:再安装两台 Linux(slave1 和 slave2),分别安装 jdk 和 tomcatmysql 都是用 master 的即可项目发布到 3 个服务器...
原创
发布博客 2018.11.22 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多