- 博客(532)
- 资源 (14)
- 问答 (1)
- 收藏
- 关注
原创 大数据面试题(三)----MapReduce面试题
谈谈Hadoop 序列化和反序列化及自定义bean 对象实现序列化?1) 序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的...
2020-01-06 19:12:43 2021 4
原创 大数据面试题(一)----HADOOP 面试题
目录一、Hadoop 基础二、HDFS基础一、Hadoop 基础下列哪项通常是集群的最主要瓶颈(C)A. CPUB. 网络C. 磁盘IOD. 内存下列哪项可以作为集群的管理工具?(C)A.PuppetB.PdshC.ClouderaManagerD.Zookeeper下列哪个是Hadoop 运行的模式?(ABC)A. 单机版B. 伪分布式C. 完全...
2020-01-06 15:13:47 6224 3
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(五)【全网最全】
目录一、需求分析二、数据展示三、无头文件的CSV分析四、有头文件的CSV分析一、需求分析 将CSV文件转为DataFrame,其中CSV包括无头文件和有文件。二、数据展示无头文件的CSV1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海,835,曹操,30,深圳,90....
2020-01-04 20:42:52 564
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(四)【全网最全】
目录一、问题分析二、@BeanProperty分析三、Scala Class创建DataFrame代码四、结果展示一、问题分析 注:此处的普通类指的是scala中定义的非case class的类框架在底层将其视作java定义的标准bean类型来处理而scala中定义的普通bean类,不具备字段的java标准getters和sett...
2020-01-04 19:58:14 496
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(三)【全网最全】
目录一、数据源二、SparkSQL通过Mysql创建DataFrame代码三、结果展示一、数据源CREATE TABLE student( id int not null primary key, name varchar(20), age int(20), city varchar(20), score double(20,2))ENGINE=InnoDB ...
2020-01-04 19:36:55 370
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(二)【全网最全】
目录一、SparkSQL通过Hive创建DataFrame问题分析 问题一: 问题二: 问题三: 问题四: 问题五:...
2020-01-04 19:26:43 573
原创 Spark2.3.3创建DataFrame的14种方式和源码解析(一)【全网最全】
目录一、数据源二、Maven的依赖三、创建DataFrame方法9种Case Class 创建DataFrameTuple 创建DataFrameJavaBean 创建DataFrameRow 创建DataFrameset集合 创建DataFramemap集合 创建DataFrameArray数组 创建DataFramemysql 创建DataFrameparquet 创...
2020-01-04 18:58:18 583
原创 大数据优化方案----Spark案例优化(一)
一、需求 通过分析用户浏览新闻热门话题的日志,统计每个话题下被浏览量最多的用户topN,即按照话题分组,在每一个组内进行排序二、样例数据数据格式:话题,时间,被浏览的用户id#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,20...
2019-12-30 22:21:51 728 1
原创 MAVEN仓库中LastUpdated文件生成原因及删除方法[Windows和Linux]
maven仓库中的LastUpdated文件生成原因maven依赖中由于各种原因(网速慢、断网)导致jar包下载不下来,出现很多.lastUpdated文件。只能手动删除这些文件。同时一个Jar包中可能依赖其余Jar包。但是一个一个删除太麻烦。所以需要一个批量操作的脚本。hbase-client-2.2.1.pom.lastUpdated 内容如下:#NOTE: This is a Mav...
2019-12-30 21:21:57 2959
原创 大数据面试宝典目录--【每天】不断更新中请期待
JAVA面试题目录mysql分组取topN的三种方式大顶堆和小顶堆–Java版二分查找–Java版大数据面试题目录
2019-12-28 09:43:26 3539 8
原创 Hive教程(三)---Hive的集合数据类型创建和查询
目录一、map类型创建和查询二、array类型创建和查询三、struct类型创建和查询一、map类型创建和查询操作步骤## 建表语句create table hive_map(id int , name string , data_map map<string,string>)row format delimited fields terminated by ' '...
2019-12-22 22:26:19 1010
原创 Spark深入解读(九)---- 窗口函数和API集合
目录一、窗口函数种类二、具体用法如下三、数据及程序四、结果展示一、窗口函数种类ranking 排名类analytic 分析类aggregate 聚合类Function TypeSQLDataFrame APIDescriptionRankingrankrankrank值可能是不连续的Rankingdense_rankdenseRank...
2019-12-21 15:36:30 611
原创 classOf[T]、getClass和 class
目录一、classOf[T]、getClass和 class案例二、关于协变和逆变三、总结:一、classOf[T]、getClass和 class案例上面显示了两者的不同之处,getClass 方法得到的是 Class[A]的某个子类,而 classOf[A] 得到是正确的 Class[A],但是去比较的话,这两个类型是equals为true的。这里有细微的差别,体现在类型赋...
2019-12-20 18:18:51 905
原创 scala 数据类型体系一览图
在 scala 中有一个根类型 Any ,他是所有类的父类.scala中一切皆为对象,分为两大类AnyVal(值类型),AnyRef(引用类型),他们都是Any子类.Null 类型是 scalaNull 类型是 scala的特别类型,它只有一个值 null, 他是 bottom calss ,是 所有 AnyRef 类型的子 类.Nothing类型也是bottomclass,他是所有类的子...
2019-12-20 11:25:22 534
原创 通过fastjson解析json数据工具
目录一、原始数据内容二、通过fastjson解析json数据一、原始数据内容eventLogJson.txt{ "u": { "cookieid": "HsOorABPB", "account": "05289", "email": "Fh8h@G4hbi.com", "phoneNbr": "20096655112", "birthday": "2002-01-1...
2019-12-15 20:33:04 461
原创 TF-IDF(词频-逆文档频率)介绍
概念 词频-逆文档频度(Term Frequency - Inverse Document Frequency,TF-IDF)技术,是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加 ,但同时会 随着它在语料库中出现的频率成反比下降 。如果某个...
2019-12-11 14:55:34 5686 2
原创 Mysql案例(一)---分组取topN的三种方式
问题:有表 如下,要求取出各班前两名(允许并列第二)表内容如下所示:idSNameClsNoScore1AAAAC1672BBBBC1553CCCCC1674DDDDC1655EEEEC1956FFFFC2577GGGGC2878HHHHC2749IIII
2019-12-10 09:27:17 943
原创 Mysql教程(十二)---cross join 的用法(笛卡尔积)
CROSS JOIN又称为笛卡尔乘积,实际上是把两个表乘起来。[实例]:SQL CROSS JOIN will return all records where each row from the first table is combined with each row from the second table. Which also mean CROSS JOIN returns the...
2019-12-06 15:08:57 1655
原创 数学常识--数学符号常识
科学计数法中的E在科学计数法中,为了使公式简便,可以用带“E”的格式表示。E(代表指数)表示将前面的数字乘以 10 的 n 次幂。1.23E+10,即 1.23 乘以 10 的 5 次幂 = 1230001.23E-10,即 1.23 乘以 10 的 -5 次幂 = 0.0000123自然指数e自然指数e,为自然对数的底数,有时亦称之为欧拉数(Euler’s Number),是一个无限...
2019-12-05 22:08:46 13182 3
原创 数学常识--两点之间距离公式
方差和标准差标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。⒈方差 s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/(n)(x为平均数)⒉标准差...
2019-12-05 18:33:47 6814
原创 数学常识--标准差、方差、协方差三者的表示意义
三者都是统计学中,对于样本的集合描述。一、定义公式 1.标准差: 2.方差: 3.协方差: 4.协方差相关系数:二、数学实际含义 ...
2019-12-05 16:22:18 4606
原创 HBase BulkLoad批量写入数据实战
目录1.概述2.内容2.1 实现原理2.2. 生成HFile文件2.3. 执行预览2.4 使用BulkLoad导入到HBase2.4.1 代码实现导入2.4.2 使用HBase命令进行导入2.5 验证3.总结1.概述在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用Map...
2019-11-18 16:20:02 557
原创 MapPartition和Map的区别
在Spark中有map和mapPartitions算子,处理数据上,有一些区别主要区别: map是对rdd中的每一个元素进行操作; mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点:...
2019-11-15 16:01:48 728 3
原创 DSP、SSP、RTB、ADX、DMP(概念通俗解释)
DSP:需求方平台比如小米想要投放一个新机发布的广告,那么他想在各大网站如网易、新浪UC等地方投放这条新机信息,但他不可能一个一个的去谈,费时费财不说,效率非常低。于是他就去了一个平台,把打广告的钱冲进去,也就是广告费,然后在这个平台里选择投放的媒体,比如UC、新浪、网易等,然后跟淘宝一样的完成结算。OK,这类似于淘宝的平台就是DSP,里面有很多的ssp提供的媒体小米把钱冲进去了,DSP平...
2019-11-09 19:48:25 3264
原创 Spark机器学习--组件Mllib的学习 RowMatrix行矩阵
一、解释分布式行矩阵有:基本行矩阵、index 行矩阵、坐标行矩阵、块行矩阵功能一次增加二、代码:/** * Spark MlLib机器学习实战 */package org.apache.spark.mllib.learning.basic import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spa...
2019-11-06 13:12:05 613
原创 Spark机器学习--矩阵的定义——scala版本
目录一、本地向量二、含类标签的点三、稀疏数据Sparse data四、本地矩阵五、分布式矩阵5.1 面向行的分布式矩阵(RowMatrix)5.2行索引矩阵(IndexedRowMatrix)5.3三元组矩阵(CoordinateMatrix)一、本地向量 本地向量的基类是 Vector,我们提供了两个实现 DenseVec...
2019-11-06 13:09:15 615
原创 hive函数大全
目录一、hive函数之数学函数二、hive函数之聚合函数三、hive函数之表生成函数四、hive函数之其他内置函数一、hive函数之数学函数round(double d)--返回double型d的近似值(四舍五入),返回bigint型;round(double d,int n)--返回保留double型d的n位小数double型近似值(四舍五入);floor(double d)-...
2019-11-06 12:07:40 615
原创 Header:请求头参数详解
Header解释示例Accept指定客户端能够接收的内容类型Accept: text/plain, text/html,application/jsonAccept-Charset浏览器可以接受的字符编码集。Accept-Charset: iso-8859-5Accept-Encoding指定浏览器可以支持的web服务器返回内容压缩编码类型。Accep...
2019-11-05 17:10:09 8247
原创 Spark机器学习--四种归一化方法总结及图文解释
目录:一、描述二、数据准备三、 Normalizer四、 StandardScaler五、 MinMaxScaler六、MaxAbsScaler七、总结一、描述org.apache.spark.ml.feature包中包含了4种不同的归一化方法:NormalizerStandardScalerMinMaxScalerMaxAbsScaler &nbs...
2019-10-21 15:02:00 1948 1
原创 sqoop--离线数据接入平台项目详解
目录1、需求2、架构和步鄹3、细化步鄹讲解1、需求近期公司需要抽取mysql和SqlServer数据到hive中,且将数据处理过程成需要进行加密脱敏。2、架构和步鄹3、细化步鄹讲解1、源数据到stage功能描述:抽取关系型数据库中数据(全量或增量)启动方式:extract -n stageDataBaseName -s stageTableName ...
2019-10-18 12:14:23 843
原创 Intellij IDEA2019.2:常用快捷键
一、首先:setting–>keymap–>eclipse使用Idea的目的就是为了编码完全脱离鼠标,虽然使用快捷键编码时很方便可以很长时间不碰鼠标,但windows系统查看文件、数据库什么的还是需要用到鼠标,这点相当郁闷,一直来的简单追求,脱离个鼠标而已;难道只能linux下编程可以完全抛弃鼠标吗?标记颜色的是我比较常用的,欢迎大家留言,我也会尽力更新完善二、我的Mac自定义...
2019-10-12 21:51:25 1478
原创 Sqoop每天全量抽取SqlServer的数据存储到hive中
需求:1、通过Sqoop每天全量抽取SqlServer的数据,按照存储到hive中,通过hive的partition进行分割#!/usr/bin/env bash################################################################################# 功能描述:抽取关系型数据库中数据(全量)# 输入:源表名称、目...
2019-09-29 11:12:46 1588 2
原创 Hive教程(十三)---CDH 永久全局Hive的udf函数
目录1、需求2、Demo结构图及数据3、创建Hive表加载数据4、创建Hive的UDF函数及结果展示1、需求:进行公司需要做数据抽取工作,其中需要通过hive的UDF函数进行数据脱敏demo下载路径2、Demo结构图及数据数据及操作步骤在doc\data中,Maven中有配置依赖和Jar包名称,只要install就可以打包。#数据1|612345222220006543...
2019-09-29 11:12:21 1522
原创 64 if 条件句+宾语从的虚拟
IF条件状语从句(真实条件句)IF条件状语从句(虚拟条件句)从句主句与现在事实相反if + 主语+ did/were…主语+ would/could/should/might do…与过去事实相反If+主语+had done…主语+would/could/should/might have done…与将来事实相反If+主语+ did/were t...
2019-09-29 09:59:22 378
原创 苹果MAC电脑双系统教程——MAC安装Windows双系统教程
软件百度云地址:https://pan.baidu.com/s/1liubpIHm7kx1XOiZr5p4sQ注意事项:首先找一个win的密钥,安装过程中要输入买了苹果MAC电脑却发现办公和一些软件、游戏根本无法安装。这时候就需要安装一个Windows了.现在一般支持WIN8-WIN10安装。准备工作:U盘一个(8G以上)、WINDOWS原版镜像、BOOTCAMP助理(苹果自带)、苹果电脑、...
2019-09-24 14:27:06 8940 4
原创 62 过去完成时+过去完成进行时
过去完成时和过去完成进行时比较Firemen had been fighting the forest for nearly three weeks before they could get it under control.A short time before, great trees had covered (cover) the countryside for miles aro...
2019-09-23 12:57:52 677
原创 Apache HBase region 拆分
目录一、描述二、提前分区三、自动分区四、强制分区五、参考连接一、描述 在Hbase中split是一个很重要的功能,Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中。在自动split策略中,当一个re...
2019-09-19 18:14:12 716
翻译 Flink在kafka中Exactly-Once原理解说
翻译来源:Apache Flink中的端到端完全一次处理概述(与Apache Kafka一样!)Apache Flink中的端到端完全一次处理概述(与Apache Kafka一样!)2018年3月1日Piotr Nowojski(@PiotrNowojski)和Mike Winters(@wints)这篇文章改编自2010年Flink Forward Berlin的Piotr Nowojsk...
2019-09-19 14:13:37 3245 1
原创 55 非谓语动词语法
一、非谓语动词的概念动词的基本用法是作谓语。当句中已经有了谓语动词了,要选或要填的动词就只能用非谓语形式了。非谓语形式有三种:动词不定式:to do动词的ing : doing动词的过去分词:done非谓语动词语法二、三种形式的含义(基本用法)不定式:表示目的和将来;动词的ing:表示主动和进行;过去分词:表示被动和完成。三、非谓语动词的时态和语态一...
2019-09-19 09:22:42 665
Mysql教程所有数据.zip
2020-05-05
crawlerBank.py
2019-07-08
SpringBoot的mvc三层以及增删改查页面
2018-11-22
spring boot+mybatis整合
2018-11-12
Lucene实战(第2版).pdf
2018-08-28
SparkSql技术
2018-08-16
hadoop-Apache2.7.3+Spark2.0集群搭建
2018-08-16
stable-diffusion-webui启动报错
2024-05-13
微博对一条微博进行评论API
2023-05-17
调用JEECG微博发帖API异常
2023-05-17
mac版本idea中路径颜色设置
2020-03-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人