自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(16)
  • 收藏
  • 关注

原创 大数据学习-Flink

1、将任务提交到yarn上运行,yarn会为每一个flink地任务启动一个jobmanager和一个或者多个taskmanasger。可以定时将flink计算的状态持久化到hdfs中,如果任务执行失败,可以基于hdfs中保存到的状态恢复任务,保证之前的结果不丢失。我们先实现第一版报警程序,对于一个账户,如果出现小于 $1 美元的交易后紧跟着一个大于 $500 的交易,就输出一个报警信息。2、如果表的数据量很大,随着时间的推移状态会越来越大,状态的数据时先保存在TM的内存中的,时间长了可能会出问题。

2024-06-12 21:56:19 721

原创 大数据学习-Spark

大数据学习-Spark1.Spark-core1.Demo1WordCountpackage com.shujia.coreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/* RDD: 弹性的分布式数据集 */object Demo1WordCount { def main(args: Array[String]): Unit = { //1、创建Spark

2024-06-12 21:55:09 1002

原创 大数据学习-Scala

【代码】大数据学习-Scala。

2024-06-12 21:49:48 215

原创 大数据学习-2024.5.09

【代码】大数据学习-2024.5.09。

2024-05-09 20:31:07 152

原创 大数据学习-2024.4.9

1、hive是数据仓库建模的工具之一。2、可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的平台。Hive的特点:1、可扩展性​ Hive可以自由的扩展集群的规模,一般情况下不需要重启服务2、延申性​ Hive支持自定义函数,用户可以根据自己的需求来实现自己的函数3、容错​ 即使节点出现错误,SQL仍然可以完成执行面试题:sql语句是如何转化成MR任务的?

2024-04-09 11:07:00 387

原创 大数据学习-2024.3.27

基础型功能:一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。负责存放数据:作业调度和集群资源管理的框架。负责资源的调配:基于 YARN 的系统,用于并行处理大型数据集。大数据的计算框架。

2024-03-27 16:06:41 291

原创 大数据学习-2024-2.25

【代码】大数据学习-2024-2.25。

2024-02-25 21:38:12 379 1

原创 大数据学习-2004.2.21

2、整数默认是int类型,要想定义一个long类型的变量,需要在值的后面加上L或者l,推荐L。&&短路与: 当左边的表达式结果是false的时候,右边就不会执行,结果为false。||短路或: 当左边的表达式结果是true的时候,右边就不会执行,结果为true。​ short 2个字节 -2^15 ~ 2^15-1。​ byte 1个字节 -2^7 ~ 2^7-1。4、要想定义一个float类型的变量,需要在值的后面加上F或者f,推荐F。

2024-02-21 21:28:25 1555 1

原创 大数据学习-2024.2.19

【代码】大数据学习-2024.2.19。

2024-02-19 20:54:02 347 1

原创 大数据学习-2024.1.28

【代码】大数据学习-2024.1.28。

2024-01-28 22:00:12 345

原创 大数据学习-2024.1.24

help 查看命令的使用方式 :xxx --help。打开文件不要进入编辑模式,选中行,按两次dd就可以了。编辑文件不小心按了ctrl+s或者ctrl+z。ls -a 查看当前目录下的信息以及隐藏文件。vi / vim (创建一个文件并打开)stat 查看信息:stat xxxx。touch命令创建(创建但是不打开)ls dir ll 查看目录信息。mkdir 创建文件夹。cp 复制文件或文件夹。快速删除文件内容的方式。

2024-01-24 14:53:30 359 1

原创 大数据学习-2024.1.22

在local目录下创建soft文件夹,将来soft表示存放安装包以及解压目录。node1中随机点几下,与克隆出来的MAC地址不一样即可。在soft目录下创建jars包,放安装包。拍摄快照(保存当前虚拟机中是数据状态)

2024-01-22 19:46:47 744 1

原创 大数据学习-2024.1.21

思路:首先利用get请求网址到安居房铜陵新房网址,再利用Xpath技术获取对应的房子信息标签(名字,地址,类型,面积,房屋状况,价格),其中类型面积标签分两种情况,一种为有,另一种为’尚未公开’,把遍历获取的数据添加到列表中,通过点击下一页到下一页页面,再调用获取一页的函数获取相关数据,最后将导入的数据保存到字典中,利用Pandas技术转DataFrame二维表格,命名并保存到本地文件夹中。安居房.csv。

2024-01-21 21:36:02 377 1

原创 大数据学习-2024.1.19

定位所有的li标签'''div[@class="p-name p-name-type-2"] 商品名称 /ndiv[@class="p-price"] 价格div[@class="p-commit"] 评价数div[@class="p-shop"] 店铺div[@class="p-icons"] 标签'''

2024-01-19 22:02:55 366

原创 大数据学习-2024.1.18

大数据学习-2024.1.18爬虫1.爬取猫眼电影相关数据import requestsimport timeimport jsonimport pandas as pdfrom datetime import datetimeurl = 'https://piaofang.maoyan.com/dashboard-ajax?orderType=0&uuid=18d1c41ad1cc8-002fc4cace16d4-26001951-144000-18d1c41ad1cc8&am

2024-01-18 22:01:41 351 1

原创 大数据学习-2024.1.17

大数据学习-2024.1.17

2024-01-17 21:47:15 561

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除