Hdmtc123-CSDN博客

原创 hadoop 创建用户及hdfs权限，hdfs操作等常用shell命令

身份晚4染发膏

2020-04-16 09:19:08 1312

原创高效开发：IntelliJ IDEA天天用，这些Debug技巧你都知道？

在软件开发的过程中，可以说调试是一项基本技能。调试的英文单词为 debug ，顾名思义，就是去除 bug 的意思。俗话说的好，编程就是制造 bug 的过程，所以 debug 的重要性毋庸置疑，如果能熟练掌握调试技能，也就可以很快的定位出代码中的 bug。要知道，看的懂代码不一定写的出代码，写的出代码不一定能调试好代码，为了能写出没有 bug 的代码，我们必须得掌握一些基本的调试技巧。工欲善其事，...

2020-04-10 08:43:52 467

原创数据库设计三大范式

数据库设计三大范式为了建立冗余较小、结构合理的数据库，设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库，必须满足一定的范式。一、基础概念要理解范式，首先必须对知道什么是关系数据库，如果你不知道，我可以简单的不能再简单的说一下：关系数据库就是用二维表来保存数据。表和表之间可以……（省略10W字）。然后你应该...

2019-03-21 13:30:09 255

转载 JAVA面试题

2019-03-20 00:55:09 375

转载大数据面试题（1）

目录最近由于要准备面试就开始提早看些面试、笔试题。以下是自己总结的一些经常出现、有价值的试题，包含hadoop、hive、hbase、storm、spark等。答案仅供参考，如有错误，请指出。试题不定时更新。hadoop相关试题MapTask并行机度是由什么决定的？由切片数量决定的。MR是干什么的？MR将用户编写的业务逻辑代码和自带的默认组件结合起来组成一个完整的分布式应用程序放到ha...

2019-03-20 00:33:08 193

转载大数据面试题锦集

1、一个网络商城1天大概产生多少G的日志？1-2TB2、1天大概有多少条日志记录（在不清洗的情况下）？1千万条3、日访问量大概有多少个？几十万个独立访客4、注册数大概多少？不清楚几百万吧5、我们的日志是不是除了apache的访问日志是不是还有其他的日志？log4j日志6、你们的服务器有多少台？几十台7、你们服务器的内存多大？有的8G，有的16G8、你们的服务器怎么分布的？...

2019-03-19 23:50:47 309

原创大数据项目怎么写

数据的产生：(我们需要了解的)1.网站的日志，游戏的日志，APP的日志。2.电商订单。3.保险，银行的数据。4.网络报文。5.运营商的项目，网络信息，通话记录，上网记录。数据采集：1.flume采集，flume可以监控一个目录，一个端口。2.sqoop数据迁移工具，从RDBM迁移到Hadoop集群。3.前期的测试时直接从甲方拿的硬盘，系统开发完成后，专门派人过去做实施。4.ft...

2019-03-18 01:48:59 3243

转载数仓分层模型

数仓分层模型|简练实用）分层案例1.电信通讯stage层 -&gt;bdl层 -&gt;analysis层2.传统金融/保险ods层 -&gt;pdm层 -&gt;dm层3.互联网金融/电商odl层 -&gt;bdl层 -&gt;idl层 -&gt;adl层尽管行业不同，套路却差不多。本次借鉴互联网分层模型，使用HIVE作为数据仓库，搭建数据平台。...

2019-03-17 16:44:41 1691

转载 sparkstreaming项目

1、项目的流程：每一个IP对应的名称：2、需求实时统计每个品类被点击的次数（用饼状图展示）：3、分析设计项目新建一个Maven项目：pom文件：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...

2019-03-17 15:57:52 514

转载 Spark 之RDD算子的整理

RDD算子分类，大致可以分为两类，即：Transformation：转换算子，这类转换并不触发提交作业，完成作业中间过程处理。Action：行动算子，这类算子会触发SparkContext提交Job作业。一：Transformation：转换算子map：将原来RDD的每个数据项通过map中的用户自定义函数f映射转变为一个新的元素。源码中map算子相当于初始化一个RDD，新...

2018-12-21 00:49:51 174

原创大数据---hbase基本原理与MR操作Hbase

一、基本原理　　1.hbase的位置　　上图描述了Hadoop 2.0生态系统中的各层结构。其中HBase位于结构化存储层，HDFS为HBase提供了高可靠性的底层存储支持， MapReduce为HBase提供了高性能的批处理能力，Zookeeper为HBase提供了稳定服务和failover机制，Pig和Hive为HBase提供了进行数据统计处理的高层语言支持，Sqoop则为HBase提...

2018-09-05 00:13:39 482

转载一些Hadoop面试题及答案

1.Hadoop集群可以运行的3个模式？单机（本地）模式伪分布式模式全分布式模式 2. 单机（本地）模式中的注意点？在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。 3. 伪分布模式中的注意点？伪分布式（Pseudo）适...

2018-08-30 23:37:18 734

Hdmtc123的博客