![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
我能想到的
这个作者很懒,什么都没留下…
展开
-
hadoop环境搭建
目录1. jdk1.8安装,环境变量配置2. 配置hostname3. 设置ip和hostname的映射关系4. 设置ssh免密码登录5. hadoop下载地址(百度搜索cdh5)6. 解压hadoop到~/app目录,并且配置环境变量7. 修改hdfs配置文件8. HDFS格式化9. 启动HDFS10. YARN配置11. 启动yarn1. jdk...原创 2019-03-14 16:00:26 · 193 阅读 · 0 评论 -
大数据开发环境搭建2:Apache Hive环境搭建(centos7)
一、前提条件 1. 先搭建hadoop环境,具体参考Apache Hive环境搭建二、mysql安装(rpm方式安装,可以使用yum方式安装,更加智能,会自动安装依赖)1. 卸载mariadbrpm -qa | grep mariadbrpm -e --nodeps mariadb-libs-5.5.60-1.el7_5.x86_642. 解压tar -axvf ...原创 2019-08-07 17:56:58 · 184 阅读 · 0 评论 -
大数据环境搭建3:Apache Sqoop环境搭建
1. 下载sqoop安装包下载地址http://mirror.bit.edu.cn/apache/sqoop/1.4.7/2. 上传sqoop安装包,并安装解压安装tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ../app3. 配置环境变量(1) vi /etc/profileexport SQOOP_HOME=/h...原创 2019-08-08 17:35:26 · 394 阅读 · 1 评论 -
使用hql验证身份证号码的合法性
一、身份证号码的组成规则(1)第1、2位数字表示:所在省份的代码;(2)第3、4位数字表示:所在城市的代码;(3)第5、6位数字表示:所在区县的代码;(4)第7、8、9、10位代表出生年;(5)第11位、12位表示:出生月;(6)第13位、14位表示:出生日;(7)第15、16位表示:同年同月同日同地区出生的顺序;(8)第17位表示性别:奇数表示男性,偶数表示女性;(9)...原创 2019-07-31 14:32:10 · 411 阅读 · 0 评论 -
大数据环境搭建1:apache hadoop环境搭建(centos7)
1. 集群规划2. 修改主机名(三台机器)3. 设置ip地址 (如果有图形界面,可以直接通过图形界面进行设置,三台机器)4. 配置主机名映射(三台机器)5. 关闭防火墙和selinux(三台机器)6. 安装jdk(略)7. 拍摄快照,方便日后重新搭建环境8. 配置ssh免密码登录9. 下载apache hadoop2.7.710. 解压安装had...原创 2019-07-18 15:24:15 · 418 阅读 · 0 评论 -
scala编程入门3:Map与Tupple
package com.cs.testscalaimport scala.collection.mutableimport scala.collection.mutable._import scala.util.Sorting._object TestScala { def main(args: Array[String]): Unit = { // map与分为可变的m...原创 2019-07-14 23:28:29 · 271 阅读 · 0 评论 -
scala编程入门2:数组
一、 scala中的数组1. scala中的数组有两种,Array和ArrayBuffer,Array是定长数组,ArrayBuffer是变长数组。2. Array的使用如下: //1. 定义数组最简洁的方式 val arr1 = Array(1,2,3,4) val arr2 = Array("hello", "world") //2. 也可以这么定义...原创 2019-07-13 19:10:46 · 241 阅读 · 0 评论 -
idea安装scala插件
1. 查看自己的idea版本号,点击help -> about2. 查看版本号3. 在这个网址下载与idea版本对应的scala插件,注意需要与idea版本对应,否则安装不了。https://plugins.jetbrains.com/plugin/1347-scala/versions4. 安装scala插件(1)在菜单栏点击file -> Setting...原创 2019-07-13 17:25:12 · 2316 阅读 · 0 评论 -
spark学习笔记3(使用spark Sql进行离线数据分析项目数据的可视化、yarn运行、优化)
八、数据可视化1. Echarts (百度)的使用2. 前面统计的结果存放在 Mysql 中,需要使用 Echarts展示出来3. 使用 Echarts (详见百度官网)(1) 从官网下载 echarts.min.js (2) 在 html 的头部引入echarts.min.js(3) 在官网复制需要的图形的脚本文件并进行相应的修改4.使用 idea 创建 web 项...原创 2019-03-13 11:29:59 · 1340 阅读 · 0 评论 -
spark学习笔记1
一、开发sql程序(1) new sql context)(2) val data = sql context.read ("joon").load (jsonfilepath) //返回的是张表(3)data.show() //可以直接使用show查看数据(4) 上传至服务器(5) 提交作业spark.submit --class --master -jars filep...原创 2019-03-12 17:24:19 · 217 阅读 · 0 评论 -
spark学习笔记2(使用spark Sql进行离线数据分析项目)
网站日志分析实战.项目一、 用户行为日志概述1. 用户访问、浏览、搜索、点击等行为都会被记录在网站的服务器上。2. 用户的访问信息主要包括如下内容:(1)系统属性。(操作系统、浏览器)(2)点击的 url, 从什么 url 跳转过来(3) 用户的sessionI...原创 2019-03-12 21:56:58 · 4334 阅读 · 0 评论 -
spark环境搭建
1. spark源码编译(1)地址https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-sources.tgz2. 编译参考官网http://spark.apache.org/docs/latest/building-spark.html3. 执行下面的命令进行编译./dev/make-distri...原创 2019-03-14 17:27:06 · 151 阅读 · 0 评论 -
电商数仓项目系列一:数据仓库简介
一、数仓定义数据仓库顾名思义就是存储数据的仓库,不同于业务数据库用作业务支撑,数据仓库是分析系统最核心的组成部分,使用这些数据为我们的报表分析(各种销售指标),广告推广(在什么地方、什么渠道投放广告),app、网站优化(商品如何展示,排列),个性化推荐等服务领域提供数据支持。既然是数据仓库,那么数据仓库的数据从哪里来?在数据仓库中怎么存储?如何将源数据存储到数仓中,这些数据将来有什么用?下面分...原创 2019-09-10 14:03:31 · 4520 阅读 · 0 评论