自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Da.的博客

编程届老萌新

  • 博客(24)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 Sqoop 一些常用命令及参数

1、 常用命令列举 这里给大家列出来了一部分 Sqoop 操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 codegen CodeGenTool 获取数...

2018-06-29 00:11:31 7523 1

原创 Sqoop 的简单使用案例

1、导入数据 在 Sqoop 中,“导入”概念指:从非大数据集群(RDBMS) 向大数据集群(HDFS, HIVE,HBASE) 中传输数据,叫做:导入,即使用 import 关键字。1、 RDBMS 到 HDFS 1) 确定 Mysql 服务开启正常 2) 在 Mysql 中新建一张表并插入一些数据mysql -uroot -p000000 mysql> create ...

2018-06-28 00:18:43 443

原创 Sqoop简介与安装

Sqoop 简介 Apache Sqoop(TM)是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop 于 2012 年 3 月孵化出来,现在是一个顶级的 Apache 项目。 最新的稳定版本是 1.4.6。 Sqoop2 的最新版本是 1.99.7。请注意, 1.99.7 与 1.4.6 不兼容,且没有特征不完整,它并不打算用...

2018-06-26 00:13:56 220

原创 Hive 知识梳理

1、 order by, sort by, distribute by, cluster by 背景表结构 在讲解中我们需要贯串一个 例子,所以需要设计一个情景,对应 还要有一个表结构和填充数据。如下: 有 3 个字段,分别为 personId 标识某一个人, company 标识一家公司名称,money 标识该公司每年盈利收入(单位:万元人民币)personId company...

2018-06-24 13:42:16 298

原创 Hive 数据仓库

1 什么是数据仓库 数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2 数据仓库能干什么? 1 年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。 2 如何优...

2018-06-21 22:29:01 2313

原创 Hive 企业级调优

1 Fetch 抓取 Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下, Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。 在 hive-default.xml.template 文件中 hive.fetch.task.conversion ...

2018-06-21 00:34:18 1063

原创 Hive 压缩和存储

1 Hadoop 源码编译支持 Snappy 压缩 1 资源准备 1) CentOS 联网 配置 CentOS 能连接外网。 Linux 虚拟机 ping www.baidu.com 是畅通的 注意: 采用 root 角色编译,减少文件夹权限出现问题2) jar 包准备(hadoop 源码、 JDK8 、 maven、 protobuf) (1) hadoop-2.7.2-src.t...

2018-06-18 23:02:50 882 1

原创 Hive 函数

1 系统自带的函数 1 查看系统自带的函数 hive> show functions;2 显示自带的函数的用法 hive> desc function upper;3 详细显示自带的函数的用法 hive> desc function extended upper;2 自定义函数 1 Hive 自带了一些函数,比如: max/min 等,但是数量有限,自己可...

2018-06-18 22:11:04 424

原创 Hive 查询

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | DISTINC...

2018-06-18 19:25:44 722

原创 Hive DML 数据操作

1 数据导入 1 向表中装载数据(Load) 1)语法 hive>load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)]; (1) load data:表示加载数据 (2) local:表示从本地加载数据...

2018-06-18 00:45:48 266

原创 Hive DDL 数据定义

1 创建数据库 1 创建一个数据库,数据库在 HDFS 上的默认存储路是/user/hive/warehouse/*.db。 hive (default)> create database db_hive;2 避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法) hive> create database db_hive; FAILED: E...

2018-06-16 16:16:14 451

原创 Hive 数据类型

1 基本数据类型 对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。2 集合数据类型 Hive 有三种复杂数据类型 ARRAY、 MAP 和 STRUCT。 ARRAY 和 MAP 与 Java 中的 Array 和 Map 类似,而 STRUCT 与 C...

2018-06-16 15:35:46 220

原创 Hive 安装

1 Hive 安装地址 1 Hive 官网地址: http://hive.apache.org/ 2 文档查看地址: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3 下载地址: http://archive.apache.org/dist/hive/ 4 github 地址: https://g...

2018-06-15 00:24:42 346

原创 Hive 基本概念

1 什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序 1 Hive 处理的数据存储在 HDFS 2 Hive 分析数据底层的实现是 MapReduce 3 执行程序运行在...

2018-06-12 22:37:34 221 1

原创 Zookeeper 实战

1 分布式安装部署 0 集群规划 在 hadoop102、 hadoop103 和 hadoop104 三个节点上部署 Zookeeper。1 解压安装 1)解压 zookeeper 安装包到/opt/module/目录下 [joker@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ 2) ...

2018-06-10 21:43:07 430

原创 Zookeeper 内部原理

1 选举机制 1 半数机制(Paxos 协议):集群中半数以上机器存活,集群可用。所以 zookeeper适合装在奇数台机器上。2 Zookeeper 虽然在配置文件中并没有指定 master 和 slave。 但是, zookeeper 工作时,是有一个节点为 leader,其他则为 follower, Leader 是通过内部的选举机制临时产生的。3 以一个简单的例子来说明整个选举的...

2018-06-10 19:28:31 195

原创 Zookeeper 安装

1 本地模式安装部署 1 安装前准备: 1)安装 jdk 2)通过 SecureCRT 工具拷贝 zookeeper 到 linux 系统下 3)修改 tar 包权限 chmod u+x zookeeper-3.4.10.tar.gz 4)解压到指定目录 tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/2 配置修改 将/opt/...

2018-06-10 19:16:14 173

原创 Zookeeper 概述

1 概述 Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。 2 特点 1 Zookeeper:一个领导者(leader),多个跟随者(follower)组成的集群。 2 Leader 负责进行投票的发起和决议,更新系统状态。 3 Follower 用于接收客户请求并向客户端返回结果,在选举 Leader 过程中参与投票。 4 集群...

2018-06-10 19:06:06 235

原创 springboot+echarts入门案例

首先IDEA创建个springboot项目,选择1.5.3版本,pom文件中加入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2018-06-07 22:35:45 10647

原创 pyspider爬取网页

开启爬虫pyspider#后台启动pyspiderpyspider all &还是爬取之前那个动漫网站做对比,pyspider最大的好处是调试非常方便,只是爬取速度没得前面的快#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2018-06-03 21:52:13# Project: test...

2018-06-03 23:01:30 2362

原创 pyspider安装

censtos是服务器常用的操作系统,本例以centos7最小化版安装为例安装yum 更新yum update安装wget命令yum install wget首页安装扩展源yum -y install epel-release修改yum源为阿里源cd /etc/yum.repos.d#接着备份旧的配置文件sudo mv CentOS-Base.rep...

2018-06-03 21:34:30 506

原创 webmagic爬取图片

webmagic算是一个国人开发比较简单粗暴的爬虫框架,首页:http://webmagic.io/ 中文文档:http://webmagic.io/docs/zh/posts/ch2-install/这次随便找了个小图片网站爬取(大网站没代理怕被封IP):http://www.mmonly.cc/ktmh/hzw/list_34_1.html分析网站: 要获取这些主要内容的连接 ...

2018-06-02 13:37:32 3887 1

原创 根据URL爬取内容

数据准备ACTION_ID|ACTIOB_OBJ_ID|URL|HOST11103|Kugou-3f04b986936e95b0e4020e05026f9a74|http://trackercdngz.kugou.com/i/v2/?album_audio_id=105339901&behavior=play&module=&cmd=26&token=44...

2018-06-02 12:31:18 1999

原创 简易爬虫--360图片爬取

爬取网站http://image.so.com/ 360的图片搜索先随便输入搜索的图片内容进入网页,发现他的加载是拖动加载图片,浏览器按F12打开调试模式,选择网络模式抓包 抓到后点击查看,先查看请求路径与请求方式 然后翻到最后看请求参数,get请求也可以直接在url地址上查看请求参数 最后分析返回的json参数,拿到所需要的资源 也可以通过https://www.be...

2018-06-02 11:45:25 4153 2

基于webmagic的网络爬虫入门demo

基于webmagic的网络爬虫入门demo 希望对大家有所帮助

2018-01-13

java基于jsoup+mongodb的简单爬虫入门程序

java基于jsoup+mongodb的简单爬虫入门程序,简单易懂,希望能给大家提供帮助

2018-01-07

mongodb-linux-x86_64-3.3.6.tgz

mongodb-linux-x86_64-3.3.6.tgz ,有需要的小伙伴可以下载

2017-12-31

jdk1.8可用的dubbo-admin-2.5.4.rar

jdk1.8可用的dubbo-admin-2.5.4.rar,jdk1.8可用的dubbo-admin-2.5.4.rar

2017-09-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除