自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 第十二篇实习日记

​ 当Spark SQL提供的内置函数不能满足查询需求时,用户可以根据需求编写自定义函数(User Defined Functions, UDF),然后在Spark SQL中调用。​ 例如有这样一个需求:为了保护用户的隐私,当查询数据的时候,需要将用户手机号的中间4位数字用星号()代替,比如手机号180***2688。这时就可以编写一个自定义函数来实现这个需求,实现代码如下:​/*** 用户自定义函数,隐藏手机号中间4位*///创建或得到SparkSession。

2024-06-18 11:27:39 191

原创 第十一篇实习日记

​ Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-18 11:06:08 359

原创 第十篇实习日记

Scala中的循环主要有for循环、while循环和do while循环三种。1、for循环for循环的语法:for(变量<-集合或数组){方法体例如,循环从1到5输出变量i的值:若不想包括5,可使用关键字until:将字符串“hello”中的字符循环输出:将字符串看做一个由多个字符组成的集合,简化写法:2、while循环while循环的语法:while(条件)循环体例如:i: Int = 1| i=i+1| }

2024-06-18 11:02:13 722

原创 第九篇实习日记

1、下载Scala到Scala官网https://www.scala-lang.org/download/下载Windows安装包scala-2.12.7.msi2、配置环境变量变量名:SCALA_HOME变量值:C:\Program Files (x86)\scala变量名:Path变量值:%SCALA_HOME%\bin3、测试CMD中执行scala -version命令。

2024-06-18 10:56:08 425

原创 第八篇实习日记——电商实战——Hadoop实现

根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-18 10:46:40 170

原创 第七篇实习日记——电商实战——Hadoop实现

统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-14 16:14:26 516

原创 第六篇实习日记——电商实战——Hadoop实现

统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

2024-06-14 15:24:35 603

原创 第五篇实习日记

13开头的手机号15开头手机号其他开头的手机号。

2024-06-13 11:37:29 138

原创 第四篇实习日记

Idea中打包 java程序:随后在Main Class中选择 FlowDriver,随后点击OK。

2024-06-13 11:16:56 125

原创 第三篇实习日记

【代码】第三篇实习日记。

2024-06-13 10:57:34 132

原创 第二篇实习日记

/1实现writable方法//必须要有空参构造,为了以后反射用super();super();//序列化的方法@Override//反序列化方法//注意序列化方法和反序列化方法顺序必须保持一致@Override@Override@Override。

2024-06-13 10:46:25 288

原创 第一篇实习笔记

包括属性:手机号、上行流量、下行流量、总流量(2)自定义Map任务类(Map Task)对每一行日志内容进行拆分,Map输出数据为:phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)(3)编写Reduce任务类(Reduce Task)对每个手机号的流量进行汇总,Map输出数据为:phone==>Access(手机号,上行流量和,下行流量和)也可以优化为:phone==>Access(NullWritable对象,上行流量和,下行流量和)

2024-06-05 16:40:36 166 1

原创 实习day2

• 今天进行了虚拟机的成功迁移。• 修改了相关IP地址等。• 下载了git和小乌龟。• 创建了自己的仓库。

2024-06-05 00:01:52 62

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除