自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(291)
  • 收藏
  • 关注

原创 【Hive】Hive基础1

一、什么是Hive1基于Hadoop的数据仓库解决方案2将结构化的数据文件映射为数据库表3提供类sql的查询语言HQL二、Hive的优势和特点1、提供了一个简单的优化模型2、HQL类SQL语法,简化MR开发3、支持在不同的计算框架上运行4、支持用户自定义函数三、Hive元数据管理默认由 Derby数据库管理实际用Mysql,修改配置文件hiv...

2019-10-22 18:05:28 277

原创 【MR】windows本地运行wordcount

package com.juruo.wordcount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import ...

2019-10-22 17:09:43 365

原创 数仓项目第一天

关系数据库系统是支持关系模型的数据库系统。常见的数据库MySQL,Oracle、DB2,SQLServer都是关系型数据库。关系:由行和列构成的二维结构,对应关系数据中表,也就是数据的存储结构元组  关系数据库中的一个表的行,也就是一条记录。关系数据库的特性在一个数据库中,表名称唯一 表中的每个列名称不同,不同的表列名称可以相同 列是无序的 行是无序的关系数据模型中...

2019-02-12 20:26:03 1656

原创 hive电商项目:3会员主题

create table if not exists dwd_mem(pl string,pl_id string,en string,en_id string,browser_name string,browser_id string,browser_version string,browser_version_id string,province_name string,...

2019-01-05 01:00:30 525

原创 hive电商项目:2用户主题

创建dw层的数据##为新增用户、总用户、活跃用户做计算:create table if not exists dwd_user(pl string,pl_id string,en string,en_id string,browser_name string,browser_id string,browser_version string,browser_version_id...

2019-01-05 00:56:48 782 3

原创 hive电商项目:1数仓构建过程

1、获取数据源后台的服务数据前台的点击流日志数据业务数据2、确定主题用户主题:用户、会员相关的信息订单主题:订单相关的信息浏览器主题:跟浏览器相关的信息事件主题:跟事件相关3、创建模型(创建表)100张表以内不分层,以外将分层。如果维度表较多则将维度表单独分层1、创建维度层:dim_维度表地域维度:拆分成 省 市浏览器维度:浏览器名称、版本时间维度:周、季度...

2019-01-05 00:55:52 4339 2

原创 HQL入门50题

 student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别 course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号  课程编号:1语文 2数学 3英语teacher(t_id,t_name) –教师编号,教师姓名 score(s_id,c_id,s_score) –学生编号,课程编号,分数注:...

2019-01-04 16:35:09 665

原创 sqoop

作用:将关系型数据库(mysql Oracle等)中的数据导进到hadoop的hdfs中,也可以将hdfs中的数据导进到关系型数据库中。原理:会将sqoop命令翻译成MR中的Inputformat,outputformat注:从hdfs到关系型数据库叫导出,从关系型数据库到hdfs叫导入注:在linux中一行没敲完用 \可以在下一行接着写(注\前有空格)1用sqoop查看mysql...

2019-01-02 13:55:47 151

原创 scala1

package com.juruo.scala.chapter01//scala是完全面向对象的语言,它没有static语法操作//虽说java是完全面向对象的,但java中的8个基本类型、static修饰的内容都不是面向对象的//编译:xx.scala --> xx.class 这个xx.class文件中可以有静态的内容//scala采用Object类来代替静态操作,Object...

2018-12-25 16:22:16 157 1

原创 java 枚举values()方法

public enum EnumDemo { LAUNCH(1, "launch event", "e_l"),//launch事件,表示第一次访问 PAGEVIEW(2, "page view event", "e_pv"),//页面浏览事件 CHARGEREQUEST(3, "charge request event", "e_crt"),//订单生产事件

2018-12-23 20:34:10 4758

原创 项目介绍

【1】项目总体介绍1项目综述:在本次课程中,项目分别为bf_track(收集数据),bf_transforer和bf_dataapi。本次项目主要以分析七个模块的数据,分别为用户基本信息分析,操作系统分析,地域信息分析,用户浏览深度分析、外链数据分析(指从别的网站进入我们收集数据的网站)、订单信息分析以及事件分析。那么针对不同的分析模块,我们有不同的用户数据需求,所以我们在b...

2018-12-22 21:20:53 497

原创 centOS6关闭防火墙

[1]service iptables stop[2]vi /etc/selinux/configSELINUX=disabled 改完之后要重启机器 

2018-12-22 11:04:12 175

原创 未解决的问题

【1】nginx 80端口无法访问

2018-12-22 09:03:10 252

原创 centos6安装nginx

安装nginx的步骤:1).root用户登录2).yum info nginx 找不到nginx的安装包3).rpm -ivh https://nginx.org/packages/centos/6/noarch/RPMS/nginx-release-centos-6-0.el6.ngx.noarch.rpm(要能够连接外网)4).yum repolist 发现yum源中,多了个ngi...

2018-12-21 00:45:21 453

原创 hadoop项目1--需求相关

知识点:1ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。2StringUtilspublic static boolean isEmpty(String str)判断某字符串是否为空,为空的标准是str==null或str.length()==0...

2018-12-20 18:19:42 852

原创 Flume

Flume是一个Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集,聚合和传输的系统,Flume基于流式框架,灵活简单。Flume最主要的作用就是:实时读取服务器本地磁盘的数据,将数据写入到HDFS.flume由三部分组成:source:源channel:通道sink落水洞可以把source和sink看成是数据的入口和出口,channel看成是数据传输的...

2018-12-18 20:59:24 254

原创 使用淘宝解析ip地址

package item_day2;//1、使用淘宝解析ip地址// 示例:用浏览器访问下面这段url,会显示出地址信息。只要我们将想要查询信息的IP地址// 改变就会在页面显示出来// http://ip.taobao.com/service/getIpInfo.php?ip=102.113.115.114//// 编写一个工...

2018-12-18 11:18:08 3425

原创 UserAgent的解析

package item_day2;import cz.mallat.uasparser.OnlineUpdater;import cz.mallat.uasparser.UASparser;import cz.mallat.uasparser.UserAgentInfo;import java.io.IOException;//解析浏览器的useragent的工具类,内部就是调用...

2018-12-18 11:16:48 2441

原创 hive权限问题

更详细的解释:https://blog.csdn.net/yuhan61659/article/details/80590227 在mysql中写:【1】grant all privileges on *.* to 'root'@'item1'  identified by '123456' with grant option;item1为主机名''中为root用户的密码【...

2018-12-17 21:51:58 497

原创 hadoop 项目day1作业

【1】大数据离线项目流程1、数据的产生tomcat服务器、业务数据、nginx服务器(前端的点击行为,通过JS代码发送http请求到nginx服务区,nginx服务器将数据生成日志)2、数据的收集flume、sqoop(数据整合工具)存储在哪儿里?HDFS、hive、HBASE3、数据的清洗自有数据 name、age、address买来的数据:uname,salaryip:...

2018-12-17 20:31:09 178

原创 UDF练习

原始数据8条:"1"    "A"    "R"    32    "H"    "w"    "2017-01-16"    1167    80    0    0    0    1200    0"2"    "A"    "E"    67    "L"    "b"    &

2018-12-14 17:15:33 357

原创 mapreduce中的join

mapreduce常见的join:reduce端的join、map端的join、semi join??【1】reduce端的join核心思想:在map端将来源不同的数据或者有不同用处的数据打标机输出,以便reduce端能够识别并进行连接关系查找。适合场景:所有的表都是大表时(几乎所有业务都满足)优点:解决业务范围较广缺点:从map端传到reduce端的数据量较大。且有很多...

2018-12-04 02:42:25 568

原创 mapreduce求每个订单中的价格从高到低的x行数据

package day12_3;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.*;import org.apache.hadoop.mapred.lib.HashPartitioner;import org.apache.h...

2018-12-04 00:47:10 445

原创 好友案例

案例2:求共同好友用户:好友A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J输出结果:A-B:C,EA-C:F,DA-D:E,F...map端的...

2018-12-03 01:21:58 135

原创 流量日志统计案例

文件内容:         1363157985066   【时间戳】  13726230503  【手机号,有相同的】 第二个 00-FD-07-A4-72-B8:CMCC【运营商】 120.196.100.82 【IP】  i02.c.aliimg.com 【网址,有的没有这项】    视频网站【网站类别,有的没有】  24 【上传数据包个数】  27 【下载数据包个数】  ...

2018-12-03 01:18:57 1605

原创 MapReduce wordcount

package tmp;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapre...

2018-11-28 01:45:42 142

原创 HDFS原理

【1】分页查看日志tail -f 可以实时跟踪日志【2】hdfs集群:namenode datanode secondarynamenode【3】namenode 管理元数据 响应客户请求 监视datanode情况 (心跳,块报告)【4】datanode存储文件块【5】HDFS读写流程,重点在写【客户端往HDFS上写】客户端对文件切块,设置副本数客户端要配置hdfs-s...

2018-11-23 01:10:21 241

原创 Linux

离线的Hadoop实时的Spark什么是大数据?海量数据的处理大数据具有行业无关性大数据用在哪里?用在需要对海量数据进行处理的任何场合举个栗子1搜索引擎--需要对海量文档建索引库2各种电商--需要对用户的点击日志(海量)进行各种分析3电信运营商--需要对用户的上网行为(进行分析)4广告系统--需要对用户进行画像(海量)以便于做精准投放linux3-4天hadoop:hafs...

2018-11-19 21:10:16 168

原创 HDFS第一天

hadoop是什么hadoop是apache旗下一套开源的软件平台hadoop是一套高可靠的、可扩展的、分布式的计算开源软件hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型的数据hadoop提供的功能:利用服务器集群,    根据用户自定义的业务逻辑对海量数据进行hadoop的核心模块(四大核心1,2,3,4)三大框架(2,3,4):1hadoop co...

2018-11-19 21:09:47 204

原创 Linux鸟哥

观察系统的使用状态1who 看目前有谁在线2netstat -a网络的联机状态3ps -aux 后台的程序4sync将数据同步写入硬盘 ----------------11/11-------------#sync:数据写入磁盘,在关机重启前使用,事实上sync也可以被一般用户使用,只不过一般账号用户所更新的硬盘数据就仅有自己的数据,不像root可以更新整个系统中的数...

2018-11-10 09:09:53 391

原创 JDBC优化--写成配置文件

注:配置文件必须写在工程的src目录下package p1;import java.sql.*;import java.util.*;class Person{ @Override public String toString() { return "Person [id=" + id + ", name=" + name + "]"; } int id; Str...

2018-11-09 22:21:40 348

原创 JDBC增、删、改

增package p1;import java.sql.*;import java.util.*;class Person{ @Override public String toString() { return "Person [id=" + id + ", name=" + name + "]"; } int id; String name;}public c...

2018-11-09 21:45:41 160

原创 JDBC查询

1导入sql的jar包右键工程--New--Folder--写个名字finish将这个jar包直接复制到刚刚创建的mybin中右键选中这个文件Build Path--Add to Build Path这时候多了一个文件这就OK了、在该工程下建包,在包下建类2在mysql库db4中建一个表注:驱动名字来自这里package p1;impo...

2018-11-09 21:28:39 3865

原创 给Eclipse添加Tomcat

1在Servers界面空白处右键--New--Server--在这里选择版本next--Browse选择对应的版本Finish开启这个TomcatOK

2018-11-09 20:36:48 366

原创 使用MyEclipse自带的Tomcat

注:一台电脑只能开一个Tomcat,不能同时开多个1找到servers窗口Window--Show View--Servers右键--start显示startedMyeclipse自带的Tomcat端口为80802在Servers窗口的空白处右键--Add/Remove Deployment选中text点add--finish这样就OK了...

2018-11-09 20:23:24 9085 1

原创 手动安装Tomcat服务器

1随便解压某个版本的tomcat到某一目录下(可以安装多个tomcat)2右键打开startup.bat文件打开tomcat服务器打开之后看到这个就对了、注:这个小窗口要是关了,tomcat服务器就关了3更改端口,默认端口为8080但一般会被占用,所以要改,我改成了8088以记事本打开这个4测试是否成功,出现就成功了5在myEclipse里创建一个web s...

2018-11-09 20:09:05 529

原创 卸载vmware

https://blog.csdn.net/lizhen8285/article/details/80143570

2018-11-07 19:48:16 233

原创 mysql2

DQL操作DQL数据查询语言 (重要)数据库执行DQL语句不会对数据进行改变,而是让数据库发送结果集给客户端。查询返回的结果集是一张虚拟表。 查询关键字:SELECT语法: SELECT 列名 FROM表名【WHERE --> GOUP BY -->HAVING--> ORDER BY   LIMIT】 语法:SELECT selectio...

2018-11-06 22:26:04 323

原创 mysql1

我的端口号:3306数据库本来是一个服务器,相当于一个应用数据库的卸载 1.关掉服务:在任务管理器--服务--停掉服务器 或者 管理员打开cmd 中 net stop mysql 2.控制面板卸载 3. Programfiles -- MySQL -- .ini 文件记事本打开 -- 删掉 4. ProgramData -- MySQL -- 删掉...

2018-11-06 22:24:51 145

原创 完整卸载Mysql

卸载MySQL1.停止服务,使用c:\>net stop mysql命令停止服务,c:\>net start mysql 命令启动服务。 服务中设置 自动启动 手动启动2.在控制面板-->"程序和功能"中,找到“mysql程序”,点击卸载。3.删除安装目录,一般默认在C:\Program Files\MySQL。4.删除数据库文件存放目录,一般默认在C:\Prog...

2018-11-06 11:43:04 145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除