- 博客(16)
- 收藏
- 关注
原创 大数据学习-Flink
1、将任务提交到yarn上运行,yarn会为每一个flink地任务启动一个jobmanager和一个或者多个taskmanasger。可以定时将flink计算的状态持久化到hdfs中,如果任务执行失败,可以基于hdfs中保存到的状态恢复任务,保证之前的结果不丢失。我们先实现第一版报警程序,对于一个账户,如果出现小于 $1 美元的交易后紧跟着一个大于 $500 的交易,就输出一个报警信息。2、如果表的数据量很大,随着时间的推移状态会越来越大,状态的数据时先保存在TM的内存中的,时间长了可能会出问题。
2024-06-12 21:56:19 721
原创 大数据学习-Spark
大数据学习-Spark1.Spark-core1.Demo1WordCountpackage com.shujia.coreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/* RDD: 弹性的分布式数据集 */object Demo1WordCount { def main(args: Array[String]): Unit = { //1、创建Spark
2024-06-12 21:55:09 1002
原创 大数据学习-2024.4.9
1、hive是数据仓库建模的工具之一。2、可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的平台。Hive的特点:1、可扩展性 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务2、延申性 Hive支持自定义函数,用户可以根据自己的需求来实现自己的函数3、容错 即使节点出现错误,SQL仍然可以完成执行面试题:sql语句是如何转化成MR任务的?
2024-04-09 11:07:00 387
原创 大数据学习-2024.3.27
基础型功能:一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。负责存放数据:作业调度和集群资源管理的框架。负责资源的调配:基于 YARN 的系统,用于并行处理大型数据集。大数据的计算框架。
2024-03-27 16:06:41 291
原创 大数据学习-2004.2.21
2、整数默认是int类型,要想定义一个long类型的变量,需要在值的后面加上L或者l,推荐L。&&短路与: 当左边的表达式结果是false的时候,右边就不会执行,结果为false。||短路或: 当左边的表达式结果是true的时候,右边就不会执行,结果为true。 short 2个字节 -2^15 ~ 2^15-1。 byte 1个字节 -2^7 ~ 2^7-1。4、要想定义一个float类型的变量,需要在值的后面加上F或者f,推荐F。
2024-02-21 21:28:25 1555 1
原创 大数据学习-2024.1.24
help 查看命令的使用方式 :xxx --help。打开文件不要进入编辑模式,选中行,按两次dd就可以了。编辑文件不小心按了ctrl+s或者ctrl+z。ls -a 查看当前目录下的信息以及隐藏文件。vi / vim (创建一个文件并打开)stat 查看信息:stat xxxx。touch命令创建(创建但是不打开)ls dir ll 查看目录信息。mkdir 创建文件夹。cp 复制文件或文件夹。快速删除文件内容的方式。
2024-01-24 14:53:30 359 1
原创 大数据学习-2024.1.22
在local目录下创建soft文件夹,将来soft表示存放安装包以及解压目录。node1中随机点几下,与克隆出来的MAC地址不一样即可。在soft目录下创建jars包,放安装包。拍摄快照(保存当前虚拟机中是数据状态)
2024-01-22 19:46:47 744 1
原创 大数据学习-2024.1.21
思路:首先利用get请求网址到安居房铜陵新房网址,再利用Xpath技术获取对应的房子信息标签(名字,地址,类型,面积,房屋状况,价格),其中类型面积标签分两种情况,一种为有,另一种为’尚未公开’,把遍历获取的数据添加到列表中,通过点击下一页到下一页页面,再调用获取一页的函数获取相关数据,最后将导入的数据保存到字典中,利用Pandas技术转DataFrame二维表格,命名并保存到本地文件夹中。安居房.csv。
2024-01-21 21:36:02 377 1
原创 大数据学习-2024.1.19
定位所有的li标签'''div[@class="p-name p-name-type-2"] 商品名称 /ndiv[@class="p-price"] 价格div[@class="p-commit"] 评价数div[@class="p-shop"] 店铺div[@class="p-icons"] 标签'''
2024-01-19 22:02:55 366
原创 大数据学习-2024.1.18
大数据学习-2024.1.18爬虫1.爬取猫眼电影相关数据import requestsimport timeimport jsonimport pandas as pdfrom datetime import datetimeurl = 'https://piaofang.maoyan.com/dashboard-ajax?orderType=0&uuid=18d1c41ad1cc8-002fc4cace16d4-26001951-144000-18d1c41ad1cc8&am
2024-01-18 22:01:41 351 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人