自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(323)
  • 收藏
  • 关注

原创 自学3年Python成了大厂数据分析师,他来分享几条捷径_只学python语言能做数据分析师吗

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

2024-05-16 12:22:33 275

原创 自学3年Python成了大厂数据分析师,他来分享几条捷径_只学python语言能做数据分析师吗 (3)

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

2024-05-16 12:22:00 376

原创 自学3年Python成了大厂数据分析师,他来分享几条捷径_只学python语言能做数据分析师吗 (2)

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

2024-05-16 12:21:27 416

原创 自学3年Python成了大厂数据分析师,他来分享几条捷径_只学python语言能做数据分析师吗 (1)

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

2024-05-16 12:20:53 312

原创 最新大数据开发岗大厂面试30天冲刺 - 日积月累,每日五题【Day04】—,2024年最新2024新鲜出炉阿里巴巴面试真题

大家好,我是manor。相信大家和我一样,都有一个大厂梦,作为一名大数据专业学生、爱好者,深知面试重要性,很多学生已经进入暑假模式,暑假也不能懈怠,正值金九银十的秋招接下来我准备用30天时间,基于大数据开发岗面试中的高频面试题,以每日5题的形式,带你过一遍热门面试题及恰如其分的解答。相信只要一路走来,日积月累,我们终会在最高处见。本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

2024-05-16 08:40:07 224

原创 最新大数据开发八股文总结——Hadoop_大数据八股文,2024年最新大数据开发开发全套学习

MapReduce是一个分布式运算程序的编程框架,它的核心功能是将用户编写的业务逻辑代码和自带默认组件代码整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapReduce是一种分布式计算模型,它主要用于大规模数据的处理和分析。在MapReduce模型中,Map函数和Reduce函数都是非常重要的组成部分,它们分别在数据预处理和结果合并阶段发挥重要作用。Map函数一般用来对数据进行预处理。当MapReduce模型读取数据时, Map函数会对每个数据块进行处理。

2024-05-16 08:39:35 351

原创 最新大数据开发 NLP文本相似度,2024年最新2024年阿里大数据开发岗面试必问

每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合中的。• 两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序。出现次数最多的是“的”“是”“在”,这类最常用的词,• 在词频的基础上,赋予每一个词的权重,进一步体现该词的重要性,• 较常见的词(“国内”、“中国”、“报道”)给予较小的权重。• 最常见的词(“的”、“是”、“在”)给予最小的权重。• 较少见的词(“养殖”、“维基”、“涨停”)较大权重。• 计算两个向量的余弦相似度,值越大就表示越相似。

2024-05-16 08:39:01 275

原创 最新大数据常用操作指令(1),2024年最新这里有份超全大数据开发体系化进阶学习图谱

7)dw (功能描述:删除一个词)8)shift+^ (功能描述:移动到行头)9)shift+$ (功能描述:移动到行尾)10)1+shift+g (功能描述:移动到页头,数字)11)shift+g (功能描述:移动到页尾)12)数字N+shift+g (功能描述:移动到目标行)

2024-05-16 08:38:28 368

原创 数据结构和算法:Big-Data-Structure 大话数据结构 算法复杂度 线性表 非线性表 查找 排序_大话数据结构矩阵代码

数据结构概念数据结构分类算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作。在进行算法分析时,语句总的执行次数 T(n) 是关于问题规模 n 的函数,进而分析 T(n) 随 n 的变化情况并确定 T(n)的数量级。算法的时间复杂度,也就是算法的时间量度,记作:T(n)=O(f(n))。它表示随问题规模的增大,算法执行时间的增长率和 f(n) 的增长率相同,乘坐算法的渐进时间复杂度,简称为时间复杂度。其中 f(n) 是问题规模 n 的某个函数。

2024-05-16 00:51:19 572

原创 数据结构与算法-约瑟夫问题 Josephu问题_数据结构 约瑟夫问题算法思想

System.out.printf(“最后留在圈中的小孩节点的编号是%d”,helper.getNo());System.out.printf(“小孩%d出圈\n”,first.getNo());System.out.println(“指向第一个节点了”);System.out.println(“参数输入有误”);* @param startNum 表示第几个小孩开始数。* @param nums 表示最初有多少个小孩在圈里。//创建一个辅助指针,帮助完成小孩出圈。//循环操作,直到圈中只有一个。

2024-05-16 00:50:46 456

原创 数据结构与算法----栈和队列(Stack & Queue)_小鱼干儿的博客

循环队列,本质上还是使用数组进行实现,只是在逻辑上将首部、尾部连接起来,形成一个环状的循环队列,循环队列存储的元素个数比数组的长度少一,用来区分队满还是对待队空。栈的链式存储结构称为链栈,利用的链表实现,链表中的每个元素由两个部分组成,一部分是存储本身的数据信息,一部分存储其直接后继的内存地址,分别叫做为。因为存储结构的不同,导致代码内部的实现方法不同,大家仔细看一下代码实现的区别就行了。队列是一种运算受限的线性表,元素的添加操作在表的一端进行,而另一端的删除在另一端进行,允许插入的一端称为。

2024-05-16 00:50:13 929

原创 数据结构与算法----栈和队列(Stack & Queue)_小鱼干儿的博客(2)

在学习栈和队列前我先强调一下,栈和队列都是一种编程思想,实现方式有很多种,我们只需要满足栈和队列各自的条件就可以,不必拘泥写一个类。

2024-05-16 00:49:40 583

原创 数据准备脚本:Python Pandas OR esProc SPL?_esproc spl python

除了文件,Pandas和SPL也可以解析来自RESTful/WebService的多层数据,区别在于Pandas的语言整体性不佳,没有提供内置的RESTful/WebService接口,必须引入第三方类库。

2024-05-15 23:51:43 769

原创 数据准备脚本:Python Pandas OR esProc SPL?_esproc spl python(2)

再打开N个临时文件,并维持一个N个成员的数组,指向每个临时文件的当前读取位置,初始位置是第一条记录;之后比较该数组对应的N条记录,将最小记录i写入结果文件,并下移i对应的临时文件的当前读取位置;这是大文件排序时常用的归并算法,实现过程比较复杂,Pandas缺乏方便的游标机制,只能硬编码实现,代码冗长且不易解读。#用List构造,2个字段4条记录,行号(索引)是默认的0-3,列名是默认的0-1。//先构造出结构,再用序列填入数据,行号是0-3,列名是指定的one、two。//取行号列表,#是行号的字段名。

2024-05-15 23:51:10 805

原创 数据准备脚本:Python Pandas OR esProc SPL?_esproc spl python(1)

取DataFrame data的成员时,只能用函数iloc(或loc),而取list f123的成员时,可以直接用下标,两者都是集合,但用法大相径庭,只因为DataFrame不是原生类库,语言整体性较差,无法像原生类库那样享受简洁的语法规则。SPL只有两种集合,序列(类似List)和序表,前者是后者的基础,后者是有结构的前者,序表分组后的集合是序列,两者关系清楚泾渭分明转化容易,学习和编码的成本都很低。多层数据是二维数据的一般形式,序表同样擅长表达二维数据,不需要额外的标准化动作,直接就能计算。

2024-05-15 23:50:37 747

原创 大数据最全如何用大数据驱动开一家赚钱的奶茶店_奶茶加盟公司大数据bi运用,2024年最新腾讯大数据开发开发岗

现在市面上对健康饮品的需求非常大,这也是碳酸饮料和酒精饮料被人们淘汰的重要原因,奶茶是健康饮品的代表之一,将新鲜的牛奶和优质的茶叶相结合,健康美味,给每一位消费者带来了真正的营养饮品,很受欢迎。在学校周边,有时学校为了丰富学生的课余生活,会举办一些球赛、运动会等等,学生都不喝矿泉水,直接点饮品,虽然说频率不高,但是单个客单量却是不低,就在今年五一前,某中学举办春季运动会,附近一家奶茶加盟店仅仅在运动会期间销售了近千元的饮品。区域的人群特征,看自家产品是否符合这个区域的人群特征。

2024-05-15 16:04:33 331

原创 大数据最全如何做大数据测试(1),大数据开发0基础方法类

因此,大数据测试需要使用大数据技术,例如Hadoop、Spark等,测试人员需要了解大数据架构和相关技术,对数据的采集、存储和处理过程有深入的理解。普通测试通常指对软件系统的功能、性能和安全等方面进行测试,其数据规模相对较小,通常是人为构造的数据集,以确保软件在不同情况下的表现符合预期。4、可靠性测试:测试大数据系统的可靠性,包括故障恢复、容错性等方面的测试,确保系统能够保持稳定运行。3、安全测试:测试大数据系统的安全性,包括访问控制、数据加密等方面的测试,确保数据的安全性。

2024-05-15 16:04:00 295

原创 大数据最全大模型从入门到应用——LangChain:模型(Models,大数据开发推送技术解析

使用Aleph Alpha的语义嵌入有两种可能的方法。如果我们有不同结构的文本(例如文档和查询),则我们使用非对称嵌入。

2024-05-15 16:03:27 298

原创 大数据最全大数据:数据合集,你想要的或许这里都有(3),【工作感悟

爱奇艺指数:爱奇艺指数是专门针对视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。阿里指数:国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。数据堂:专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

2024-05-15 16:02:54 235

原创 大数据最全macos系统安装ElasticSearch和Kibana详细教程(1),2024年最新阿里、百度等大厂技术面试题汇总

你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!2.如果不确认电脑是否安装node.js,前往终端输入node -v或者node --version查看node版本。5.打开bin文件,双击运行elasticsearch。1.在官网上下载elasticsearc。1.首先确保电脑已经安装node.js。3.在官网上下载kibana。6.下图则是运行成功效果。3.下载成功后是压缩包。4.打开解压好的目录。

2024-05-15 13:18:03 342

原创 大数据最全Kafka面试题1,2024年最新2024最新大数据开发常用开源库总结

首先,发送到 Kafka Broker 上的消息,最终是以 Partition 的物理形态来存储到磁盘上的。(如图)而Kafka 为了保证Parititon 的可靠性,提供了 Paritition 的副本机制,然后在这些Partition 副本集里面。存在Leader Partition 和Flollower Partition。生产者发送过来的消息,会先存到 Leader Partition 里面,然后再把消息复制到 Follower Partition,

2024-05-15 13:17:30 214

原创 大数据最全Kafka总结(2),涨姿势了

⑥本文仅展示在同一台服务器上伪分布式的部署,正式的部署需要在多台服务器启动多个kafka实例,同时要提前启动zookeeper,然后在个Kafka实例的server.properites上修改如下修改信息即可,其中第一个ip地址代表当前实例的ip及端口号,第二个代表zookeeper的ip端口号。②由于消费者也有集群的概念,当同一事务中的某个消费者消费的过程中挂了,集群里的其他消费者就需要继续之前的消费任务,此时,就能通过该偏移量继续之前的消费。①- -topic test:创建名为test的主题。

2024-05-15 13:16:57 389

原创 大数据最全kafka学习笔记(2),BAT大厂最爱问的大数据开发核心面试百题详细解析

Topic是一个类别的名称,同类消息发送到同一个Topic下面。对于每一个Topic,下面可以有多个分区(Partition)日志文件。

2024-05-15 13:16:24 287

原创 【面经】- 上汽新能源车企JAVA&大数据架构师实战面经分享_车企大数据开发

这块的话,只要你面试过几次,项目烂熟于心后,这时候介绍的节奏完全可以自己把握,比如哪个地方停顿,留给面试官思考,哪些地方抑扬顿挫,哪些地方留下悬念与包袱,但注意技术吹比的程度请依据面试官的反馈进行动态调整,别给自己挖坑,也别浮夸过度。以上的技巧只是让你将这块面试题分数提升,核心还是在于你的项目是否有技术难题,是否企业带来真正的价值(通过技术赋能企业,带来市值的提升)等等。。。数据治理每家具体的实施其实都不一样,没有统一的标准,但总体的打法以及设计都是一样的。首先你需要了解车企数据业务主要是啥?

2024-05-15 04:42:13 942

原创 【面经】- 上汽新能源车企JAVA&大数据架构师实战面经分享_车企大数据开发(1)

这块的话,只要你面试过几次,项目烂熟于心后,这时候介绍的节奏完全可以自己把握,比如哪个地方停顿,留给面试官思考,哪些地方抑扬顿挫,哪些地方留下悬念与包袱,但注意技术吹比的程度请依据面试官的反馈进行动态调整,别给自己挖坑,也别浮夸过度。以上的技巧只是让你将这块面试题分数提升,核心还是在于你的项目是否有技术难题,是否企业带来真正的价值(通过技术赋能企业,带来市值的提升)等等。。。数据治理每家具体的实施其实都不一样,没有统一的标准,但总体的打法以及设计都是一样的。首先你需要了解车企数据业务主要是啥?

2024-05-15 04:41:37 944

原创 【零钱问题】C语言贪心算法分析(文末彩蛋)_c语言贪心算法付款问题

小远手里只有10元,5元,2元的硬币,聪明的小朋友,你能告诉小远他该如何去付钱吗?小远手里有足够的钱,最大金额是10元。我们就应该先去考虑最大金额的10元,然后顺次去考虑5元,最后就是去考虑最小金额2元,顺次遍历枚举去递增。第一层是我们最小面值的计数,然后第二层就是我们中等面值的计数,然后最内层是我们最大面值的计数。最外层的i,m,n分别对应,c,b,a的个数。当我们的金额money与sum相等的时候就退出循环,并打印输出i,m,n的数值。然后明确我们需要三个变量,来作为我们的计数器,用于各个面值的遍历。

2024-05-15 04:41:01 554

原创 【零钱问题】C语言贪心算法分析(文末彩蛋)_c语言贪心算法付款问题(1)

第一层是我们最小面值的计数,然后第二层就是我们中等面值的计数,然后最内层是我们最大面值的计数。最外层的i,m,n分别对应,c,b,a的个数。当我们的金额money与sum相等的时候就退出循环,并打印输出i,m,n的数值。这是一个很简单的例子,仅仅是涉及到了贪心算法的入门,在后期我将会对文章进行优化,深度挖掘贪心算法的使用场景和我们的案例分析。接下来就是我们对sum进行求解了,我们将计数器的个数乘以面值再相加就是我们的面值了。然后明确我们需要三个变量,来作为我们的计数器,用于各个面值的遍历。

2024-05-15 04:40:25 666

原创 SeaTunnel 海量数据同步工具的使用(连载中……)_seatunnel 数据监控转发

命令: tar -zxvf apache-seatunnel-2.3.2-bin.tar.gz。

2024-05-14 20:00:29 810

原创 SeaTunnel 海量数据同步工具的使用(连载中……)_seatunnel 数据监控转发(1)

命令: ./bin/seatunnel.sh --config /home/seaTunnel/apache-seatunnel-2.3.2/config/zy_test.config -e local。🚨🚨🚨​​​​​​​🚨​​​​​​​🚨​​​​​​​🚨​​​​​​​🚨​​​​​​​🚨​​​​​​​**目前执行时报错,卡在这里,待解决……2、再次执行下载插件命令 ./bin/install-plugin.sh。4、将 jar 包放到 ${SEATUNNEL_HOME}/lib 下。

2024-05-14 19:59:53 973

原创 SD-WAN不断冲击传统WAN架构_sd-wan变得更加复杂,更加多样化,单一技术已无法满足

SD-WAN从诞生于2015年,到现在市场上已经拥有大批量的SD-WAN服务商,例如:光联网络,中企通信和夽谷科技的SD-WAN《夽易联》等,这些都是SD-WAN服务中的佼佼者,有多年的服务经验和技术沉淀,并且不仅仅停留在了最初的组网,嵌入了安全机制,完善了企业的各种需求。

2024-05-14 19:59:16 741

原创 RabbitMQ【部署 01】一篇学会RabbitMQ服务依赖的下载安装及简单使用(首次登录 User can only log in via localhost 问题处理)

来自官网的部分介绍:简单翻译一下:RabbitMQ是部署最广泛的开源消息代理。是轻量级的,易于在本地和云中部署。它支持多种消息传递协议。可以部署在分布式和联邦配置中,以满足大规模、高可用性的需求。运行在许多操作系统和云环境上,并为大多数流行语言提供了广泛的开发工具。

2024-05-14 19:20:07 482

原创 Qt for WebAssembly 环境搭建 - Windows新手入门_qtforwebassembly

会成生id_rsa和id_rsa.pub两个文件,用笔记本打开id_rsa.pub,复制全部内容。这里是产生rsa的目录,笔者这里是D:/WASM/rsa。笔者用的是Qt6.6,所以安装3.1.37。粘贴到下面这个Key里面。

2024-05-14 19:19:31 778

原创 PyTorch深度学习实战 基于多层感知机模型和随机森林模型的某地房价预测_使用感知器实现房价预测

在预处理过数据集后,构建MLP模型,并设置模型的超参数,并在训练集上训练模型。代码清单2 训练多层感知机模型。

2024-05-14 19:18:55 689

原创 PyTorch深度学习实战 基于多层感知机模型和随机森林模型的某地房价预测_使用感知器实现房价预测(4)

首先是载入需要的各种包以及数据集,与前面使用树模型等不同的地方在于,使用多层感知机模型需要对数据集的X和y都根据最大最小值进行归一化处理。下图所示程序使用了线性归一化的方法,即这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定,实际使用中可以用经验常量值来替代max和min。sklearn库中提供了归一化的接口,如代码清单1所示为加载数据集并进行归一化处理的代码实现。代码清单1 加载数据集并进行预处理操作。

2024-05-14 19:18:19 801

原创 2024年最新【Three,手持4个大厂offer的我

【使用 Three.js 实现的效果】

2024-05-14 10:42:10 269

原创 2024年最新【SQL屠夫系列】leetcode-180(2),高并发系统基础篇

编写一个 SQL 查询,查找所有至少连续出现。返回的结果表中的数据可以按 任意顺序 排列。

2024-05-14 10:41:35 284

原创 2024年最新【Spark】Spark SQL 数据类型转换_spark 字段类型(1),学习大数据开发开发只要这些东西

说明默认都是StringType类型。

2024-05-14 10:40:59 270

原创 2024年最新【Spark ML】(二)Spark ML 分类算法_spark分类算法(1),2024年最新大数据开发编程基础教程

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新需要这份系统化资料的朋友,可以戳这里获取|0.0| 0.14035087719298245||0.0| 0.15789473684210525||0.0| 0.17543859649122806||0.0| 0.19298245614035087||

2024-05-14 10:40:23 340

原创 2024年大数据最新洽谈 “会话技术” 纯干货赶紧收藏吧_回话的技术(2),BAT这种大厂履历意味着什么

cookie是小饼干的意思,在这里是用户在浏览器访问网址的时候,服务器给访问的客户端下达命令,在客户的计算机的硬盘里存储了cookie文件。我们新建01.php文件,自己设置cookie,格式setcookie(‘name’,’值’);我们打开谷歌浏览器,点击设置—高级—网站设置点开cookie,可以看到自己刚设置的,如果你访问了其他网站,也会很多cookie文件。

2024-05-14 02:02:42 778

原创 2024年大数据最新每天学习几道面试题|Kafka(二)架构设计类,阿里中间件

Kafka 的消息传递模型是基于发布/订阅(publish/subscribe)模式的,生产者将消息发布到主题,消费者从主题订阅并消费消息。与传统消息队列不同的是,Kafka 的消息传递是持久化的,消息存储在磁盘上,并且支持多个消费者组对同一主题的并行消费。如果消费者的消费速率低于生产者的生产速率,则 Kafka 会保留未被消费的消息,并在消费者准备好时重新发送这些消息。在 Kafka 集群中,Controller 是一个特殊的 broker,负责管理集群中的分区和副本的分配、故障检测和恢复等工作。

2024-05-14 02:02:06 652

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除