大数据 Application
文章平均质量分 70
暂无
珞清殇
NEU大数据实验班,EMAIL:[email protected]
展开
-
Flink 实验:广告实时统计
一、实验描述 实验数据通过java代码生成,每当kafka要发送数据时,调用数据生成方法循环生成若干条数据存入ListBuffer,每条数据的格式如下: 时间戳 省份 城市 用户ID 广告ID 实验主要完成三个需求,即(1) 实时统计每天各省市各广告的点击次数,并将其存入Mysql;(2) 实现实时的动态黑名单机制,即把每天对某个广告点击超过60次的用户拉黑(黑名单用户ID存入Mysql);(3) 最近1分钟广告总点击量,每10s计算一次,并通过html展示;原创 2021-04-08 00:39:23 · 514 阅读 · 0 评论 -
Storm 实验:广告实时统计
一、实验描述 实验数据通过java代码生成,每当kafka要发送数据时,调用数据生成方法循环生成若干条数据存入ListBuffer,每条数据的格式如下: 时间戳 省份 城市 用户ID 广告ID 实验主要完成三个需求,即(1) 实现实时的动态黑名单机制: 把每天对某个广告点击超过100次的用户拉黑,黑名单用户ID存入Mysql(2) 实时统计每天各省市各广告的点击总流量,并将其存入Mysql(3) 最近1分钟广告总点击量,每10s计算一次,并通过html展示二、原创 2021-04-07 23:55:38 · 392 阅读 · 3 评论 -
Spark 实验:Scala手机号流量求和排序
一、实验描述根据数据文件phone_data.txt按照如下需求:1)统计每一个手机号耗费的总上行流量、下行流量、总流量2)将统计结果按照手机归属地不同号段(手机号前3位)输出到不同文件中3)根据需求1)产生的结果再次对总流量进行排序。4)按照要求2)每个手机号段输出的文件中按照总流量内部排序。数据:参看 phone_data.txt 文件输入数据格式:输出数据格式:二、实验分析(1) 由于需要统计每一个手机号耗费的总上行流量、下行流量、总流量,故可以将手机号当作键、其上行流量与上原创 2021-02-18 14:36:02 · 1091 阅读 · 0 评论 -
Spark SQL实验:鸢尾花、影评数据集分析存储
一、实验描述 鸢尾花数据集分析数据集信息如下:iris.csv 的各特征列为花萼长度(sepal_length)、花萼宽度(sepal_width)、花瓣长度(petal_length)、花瓣宽度(petal_width)、鸢尾花种类(iris_type),每种鸢尾花都对应50个数据记录, 共含150个数据记录。导入鸢尾花数据集到Mysql之后,进行如下查询:(1) 所有鸢尾花的花萼与花瓣的长度、宽度的均值(2) 不同种类的鸢尾花的花萼与花瓣的长度、宽度的均值(3) 不同种类的鸢尾花的花萼原创 2021-02-18 14:35:30 · 1170 阅读 · 0 评论 -
Spark Streaming 实验:广告实时统计
一、实验描述实验数据通过scala代码生成,每当kafka要发送数据时,调用数据生成方法循环生成若干条数据存入ListBuffer,每条数据的格式如下:时间戳 省份 城市 用户ID 广告ID实验主要完成三个需求,即(1) 实现实时的动态黑名单机制: 把每天对某个广告点击超过100次的用户拉黑,黑名单用户ID存入Mysql(2) 实时统计每天各省市各广告的点击总流量,并将其存入Mysql(3) 最近1分钟广告总点击量,每10s计算一次,并通过html展示二、实验分析 需求一:实现实时的动态原创 2021-02-18 14:34:46 · 841 阅读 · 0 评论 -
Spark ML(lib)实验:利用银行营销数据集预测客户是否订阅产品
一、实验描述数据集来源于UCI的银行营销数据集(UCI Machine Learning Repository: Bank Marketing Data Set)。数据与葡萄牙一家银行机构的直接营销活动有关。营销活动是以打电话为基础的。通常,需要与同一客户进行一次以上的联系,以便确认产品(银行定期存款)是否会订阅。该数据集一共包含四个csv文件:bank-additional-full.csv包含所有的样例(41188个)和所有的特征输入(20个),根据时间排序(从2008年5月到2010年9月)原创 2021-02-18 14:34:13 · 2187 阅读 · 3 评论 -
Spark Core实验:影评数据分析
一、实验描述数据集如下:1、users.dat 数据格式为: 2::M::56::16::70072,共有6040条数据对应字段为:UserID,Gender,Age, Occupation,Zipcode对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (1995)::Adventure|Children’s|Fantasy,共有3883条数据对应字段为:MovieID, Title, Genres对应字段中文解释:电影ID,原创 2021-02-18 14:33:26 · 652 阅读 · 0 评论 -
Hadoop核心-HDFS介绍与实践(文件是否存在、读写文件、合并文件内容与日志定时上传)(Maven)
分布式文件系统-HDFS一、Introduction of DFS计算机集群结构分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群;与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的;计算机集群的基本架构Structure of DFS分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为原创 2020-11-16 09:10:24 · 522 阅读 · 0 评论