程序员
文章平均质量分 88
普通网友
这个作者很懒,什么都没留下…
展开
-
大数据时代使用Python做数据分析有什么优势_python作为大数据分析处理工具的优点(1)
看了这么多Python在使用数据分析时的优势,大家心动了吗?心动不如行动,现在就开始学习Python吧~掌握了这一个利器,大家就可以下数据的海洋里游刃有余的遨游。原创 2024-05-15 11:27:21 · 330 阅读 · 0 评论 -
大数据技术原理与应用实验报告--HDFS分布式文件系统_分布式文件系统 hdfs实验
5.在本地文件系统创建文件,文件名为自己学号,使用API方式上传该文件到/mytestdir中,并将其下载到本地/home/hadoop下。2.在本地文件系统创建文件,文件名为自己名字拼音全拼,使用put命令将该文件上传到HDFS的/mytestdir/ch04中。命令语句:hadoop fs -cat /mytestdir/ch04/liangwanying.txt。命令语句:hadoop fs -mkdir -p /mytestdir/ch04。3.使用 –cat命令查看刚刚上传的文件内容。原创 2024-05-15 11:26:46 · 325 阅读 · 0 评论 -
大数据技术—Hadoop之搭建Linux虚拟机(桥接模式下)_haddop虚拟机
这里根据自己的需要进行设置,需要注意的是处理器内核总数不能高于你的本机配置。这里也根据自己的需要进行设置选择桥接模式,然后点击下一步。然后一直选择默认选项,来到以下页面:选择最大磁盘大小,可根据自己的需要进行设置,注意不能太小!这里的文件名也可以自己设置!后面均不需要修改了。到此,虚拟机就创建完成,启动该虚拟机即可。第一次会有点慢,等待即可。原创 2024-05-15 11:26:10 · 326 阅读 · 0 评论 -
大数据技术—Hadoop之搭建Linux虚拟机(桥接模式下)_haddop虚拟机(7)
主机里面填写的是你获得的动态IP值,用户名和密码是你之前自己设置的,填入即可。这里的用户名还可用,一般不建议使用,因为它具有最高权限点击确认后,连接即可,如果连接不上,可多尝试几次。出现该页面就代表连接成功,后续一直在该页面操作即可。这里最后的地方也可能不是ens33,可根据你的实际情况进行调整,如可先进入目录查看具体是什么,如果通过上面命令可直接进去,那就不用管。**注意:如果你是以普通用户登录的,执行该命令时可能无法对该文件进行修改,需要进入到root用户,获取最高权限,命令为:**原创 2024-05-15 11:25:33 · 226 阅读 · 0 评论 -
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现_买蓉 美团(3)
本文是学习Flink中文社区实时数仓篇的总结,课程地址讲师:讲师:买蓉(美团点评 高级技术专家)。资源和运维成本较高,所以发展为kappa架构。原创 2024-05-15 02:48:44 · 408 阅读 · 0 评论 -
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现_买蓉 美团(2)
将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**资源和运维成本较高,所以发展为kappa架构。原创 2024-05-15 02:48:08 · 245 阅读 · 0 评论 -
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现_买蓉 美团(1)
本文是学习Flink中文社区实时数仓篇的总结,课程地址讲师:讲师:买蓉(美团点评 高级技术专家)。资源和运维成本较高,所以发展为kappa架构。原创 2024-05-15 02:47:32 · 373 阅读 · 0 评论 -
【实时数仓篇】(01)美团 Flink 实时数仓应用_实时数仓建模 美团
本文是学习Flink社区在B站的实时数仓篇第一节课程的总结,1. Flink 实时数仓的应用讲师:黄伟伦(美团点评 数据系统研发工程师)。原创 2024-05-15 02:46:56 · 598 阅读 · 0 评论 -
Kafka指定分区消费及consumer-id,client-id相关概念解析_kafka clientid(1)
查看kafka的server.log文件发现确实是在日志中起到标识作用的实际上是consumer-id,而并不是client-id,而client-id相当于只是consumer-id的一部分,但是由于consumer-id对使用者来说是不可见的,用户能够配置的只是consumer-id的前缀,即client-id,所以官方的解释本质上来说并没有太大问题。这样做的目的是通过允许在服务器端请求日志中包含逻辑应用程序名称,能够跟踪不仅仅是ip/端口的请求源。至于client-id的作用,官方给出的描述如下。原创 2024-05-14 17:27:01 · 913 阅读 · 0 评论 -
JSON解析 -- java实用向 -- 关于JSON基础,看这一篇就够了_fromjson
1、Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。2、它基于(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。原创 2024-05-14 17:26:25 · 698 阅读 · 0 评论 -
JSON解析 -- java实用向 -- 关于JSON基础,看这一篇就够了_fromjson(1)
Gson(又称Google Gson)是Google公司发布的一个开放源代码的Java库,主要用途为序列化Java对象为JSON字符串,或反序列化JSON字符串成Java对象。{“id”:“99”,“name”:“牛顿的苹果”,“info”:“牛顿在树下被苹果砸到”}{“id”:“99”,“name”:“牛顿的苹果”,“info”:“牛顿在树下被苹果砸到”}JSON是一种前后端交流的语言格式,它使得不同的语言的内容可以相互转换和理解。3.1.2 fastjson是什么。3.1.3 区别与特性。原创 2024-05-14 17:25:49 · 755 阅读 · 0 评论 -
JDBC的两种开源的数据库连接池详解_用于foxpro的开源jdbc驱动程序 开源
/(4)等待数据库连接池分配连接的最长时间. 单位为毫秒. 超出该时间将抛出异常.//(4)等待数据库连接池分配连接的最长时间. 单位为毫秒. 超出该时间将抛出异常.//(3)指定最小活跃的连接数: 在数据库连接池中保存的最少的空闲连接的数量。//(3)指定最小活跃的连接数: 在数据库连接池中保存的最少的空闲连接的数量。//(2)指定最大的连接数: 同一时刻可以同时向数据库申请的连接数。//(2)指定最大的连接数: 同一时刻可以同时向数据库申请的连接数。//(1)指定数据库连接池中初始化连接数的个数。原创 2024-05-14 17:25:12 · 671 阅读 · 0 评论 -
2024年最新Elasticsearch 分组分页排序查询_elasticsearch分组查询(2),腾讯、字节跳动面经已发
【代码】2024年最新Elasticsearch 分组分页排序查询_elasticsearch分组查询(2),腾讯、字节跳动面经已发。原创 2024-05-14 08:48:25 · 313 阅读 · 0 评论 -
2024年最新eclipse配置mapreduce全教程(2),最新2024年大数据开发大厂面试经验
将下载好的plugin包,放在你的eclipse的plugin目录下(我放在plugin没有效果,放着dropins,就可以了)**原创 2024-05-14 08:47:49 · 398 阅读 · 0 评论 -
2024年最新EasyPlane小游戏,C语言初学者练习项目(5),2024年最新大数据开发中级工程师面试题
/如果按下E或e,结束本次游戏。if (isfire && plane_x == target_x)//如果击中目标,生成下一个目标。//用来接受1或0,以判断是否开始游戏。printf(“输入错误,请重新输入\n”);void test()//判断是否开始游戏。switch (key)//判断按键信息。void game()//游戏主程序。void menu()//打印菜单栏。原创 2024-05-14 08:47:13 · 346 阅读 · 0 评论 -
2024年最新DolphinScheduler-3,2024年最新大数据开发开发热门前沿知识
服务端:192.168.0.31 客户端:192.168.0.32、192.168.0.33,服务端在31执行,客户端在32、33执行。,本文安装 ZK 版本为 3.8.3。参考教程中是 3.4.14,安装步骤都是一样样儿的,对应着来就可以了。,将该驱动移动至 DolphinScheduler 的每个模块下的 libs 目录下。 此处使用 MySQL 8.2.0版本,对应使用 JDBC 驱动为。用户,推荐单独创建一个用户。原创 2024-05-14 08:46:37 · 382 阅读 · 0 评论 -
2024年大数据最新【云原生】开源数据分析 SPL 轻松应对 T+0_开源spl,大数据开发码农是如何进入腾讯的
而且,我们知道,用于交易的生产库大多使用能够保证事务一致性的RDB,而分离出来的冷数据(量大且不再修改)则会更多使用专门的分析型数据库或数据平台存储,即使是关系数据库也很可能与原来的生产库类型不同,这就不仅涉及跨库,还需要跨异构库(源)查询。遗憾的是,当前实现跨库查询的技术都存在这样那样的问题。这种方式虽然灵活,但使用难度却很大,尤其对于当前大部分应用的开发语言Java来说,缺少足够的结构化数据计算类库使得完成跨库查询后的计算很难完成,通常只能做简单的列表式查询,而涉及到统计汇总类的运算就会异常麻烦。原创 2024-05-14 00:08:42 · 1477 阅读 · 0 评论 -
2024年大数据最新【Spark Graphx 系列】图分区策略原理场景示例详解(1),大数据开发面试回忆录
总的来说,PartitionStrategy在Spark GraphX中起到了优化图分区和并行计算的作用,通过合理选择和使用PartitionStrategy,可以提高图算法的性能和扩展性。在实际应用中,可以根据图的大小、稀疏程度、计算负载以及希望达到的顶点复制限制等因素综合考虑,选择最适合的策略。在使用时,可以根据具体的需求和场景,通过调整参数和测试不同的策略,来评估和选择最优的分区策略,以获得最佳的图计算性能。根据用户指定的分区策略,将图的顶点和边分布到不同的分区中。原创 2024-05-13 23:59:34 · 587 阅读 · 0 评论 -
2024年大数据最新【R语言文本挖掘】:文本挖掘(以特朗普推文数据为例(2),2024年最新一线互联网架构师360°全方面性能调优
tidytext包帮助我们将自由格式的文本转换为整洁的表格。拥有这种格式的数据极大地促进了数据可视化和统计技术的使用。使用安装我们首先使用函数将文本划分为单个单词,并删除一些常见的“停用词”。这个函数将获取一个字符串向量并提取标记,以便每个标记在新表中都有一行。现在我们看一下推文的第一条数据默认的unnest_tokens会接下来我们要做的另一个小调整是,得到提取的接下来我们来看一下哪些单词出现的次数最多不难理解这些词出现的次数最多。但是这些词没有提供信息。stop_words。原创 2024-05-13 23:58:57 · 877 阅读 · 0 评论 -
2024年大数据最新【Rust指南】use关键字妙用 模块内容拆分_rust use,2024年最新自学大数据开发
因此没有加pub关键字的第二个函数无法被调用,这就是遵循私有权限的体现。用法类似,想必此时的你定是头一歪,脑子里蹦出两个字——阶课程,涵盖了95%以上大数据知识点,真正体系化!没错,看完本篇文章心里会更加敞亮,变得自信满满。,但是我们知道公共模块里的内容也需要有。或者是java、python中的。模块中嵌套了一个公共模块。原创 2024-05-13 23:58:20 · 688 阅读 · 0 评论 -
给大家整理了几个好用的远程软件真实测评,大学生和打工人必备~用好远程,效率翻倍【建议收藏】_远程软件哪个好用(1)
向日葵也同样,针对不同的账户提供了不同等级的连接质量选择,如果是免费账户,就只能享受位于苏州的电信机房,所以在操作的时候网络延迟明显,而且很容易出现连接失败的情况,需要尝试多次。在同一个网络环境下,todesk算是这4款软件中连接速度最快的,并且在测试文档操作或者是网页浏览、观看视频、玩游戏等场景时,网络整体呈现都很稳定,没有出现过中途掉线的情况。如果是付费的账户,则可以使用 BGP 云服务器机房,对于网络的优化会有比较明显的改善,对于高难度的远程操作也能很好的支持,但必须购买高价版本,入门版本依旧限速。原创 2024-05-12 21:03:20 · 635 阅读 · 0 评论 -
终于有人把云计算、大数据和 AI 讲明白了【深度好文】_ai替代云计算
因此亚马逊是需要一个云平台的。通俗一点说,就是有一个调度中心,几千台机器都在一个池子里面,无论用户需要多少CPU、内存、硬盘的虚拟电脑,调度中心会自动在大池子里面找一个能够满足用户需求的地方,把虚拟电脑启动起来做好配置,用户就直接能用了。现在好了,有了这样一个开源的云平台OpenStack,所有的IT厂商都加入到这个社区中来,对这个云平台进行贡献,包装成自己的产品,连同自己的硬件设备一起卖。信息是很多的,但有人看到了信息相当于白看,但有人就从信息中看到了电商的未来,有人看到了直播的未来,所以人家就牛了。原创 2024-05-12 21:02:44 · 693 阅读 · 0 评论 -
索引的数据结构(2)_各个存放 用户记录的页 也是根据页中用户记录的主键大小顺序排成一个 双向链表
【代码】索引的数据结构(2)_各个存放 用户记录的页 也是根据页中用户记录的主键大小顺序排成一个 双向链表。原创 2024-05-12 21:02:08 · 901 阅读 · 0 评论 -
索引的数据结构(2)_各个存放 用户记录的页 也是根据页中用户记录的主键大小顺序排成一个 双向链表(1)
【代码】索引的数据结构(2)_各个存放 用户记录的页 也是根据页中用户记录的主键大小顺序排成一个 双向链表(1)原创 2024-05-12 21:01:32 · 725 阅读 · 0 评论 -
实战模拟│企业微信机器人实时报错预警_企业微信机器人webhook服务器拒绝请求
【代码】实战模拟│企业微信机器人实时报错预警_企业微信机器人webhook服务器拒绝请求。原创 2024-05-12 03:53:29 · 261 阅读 · 0 评论 -
学会Python等于拥有整个世界 来看下智能视觉视频识别吧_python智慧视觉
左边程序生成的彩色位图,跟右边的猫咪也没有挺像的。但是就是这个意思吧!所以,雷学委推荐读者下载一些分辨比较清晰的,这样生成的位图轮廓会更清晰呢。原创 2024-05-12 03:52:53 · 936 阅读 · 0 评论 -
学会Python等于拥有整个世界 来看下智能视觉视频识别吧_python智慧视觉(3)
这里是衔接ffmpeg的方法读取视频流:https://github.com/HypoX64/ShellPlayer/blob/master/util/ffmpeg.py。整个项目就是调用ffmpeg(可以命令行调用的流媒体处理工具)加载图片/视频,再用opencv来识别图像,生成彩色位图的。发现这个挺简单的,基于opencv这个开源视觉库,嗯,这个项目只是一个壳(当然也有一些贡献的,还不赖吧!雷学委认为:太简单的东西,一点也不好玩,所以这个东西才有玩的价值,您觉得呢?想要玩一些炫酷的东西,需要耐心的。原创 2024-05-12 03:52:16 · 598 阅读 · 0 评论 -
学会Python等于拥有整个世界 来看下智能视觉视频识别吧_python智慧视觉(2)
那就直接就源码开搞了吧。原创 2024-05-12 03:51:40 · 854 阅读 · 0 评论 -
大数据最全【大数据实时数据同步】超级详细的生产环境OGG(GoldenGate)12,2024大数据开发开发社招面试总结
调用出来的结果如下:剩下的安装步骤就一样了和前面。发现相关的文件夹都存在了。不需要再手动create subdirs接下来进入到OGG12,不过进入之前应该先用ldd命令检查一下ggsci需要的库文件都存在不?发现都存在,如果之前环境变量export LD_LIBRARY_PATH=$ORACLE_HOME/lib不设置。检查的结果会有一部分为notfound,而且执行./ggsci命令会报缺少库文件的错。原创 2024-05-11 19:14:57 · 409 阅读 · 0 评论 -
大数据最全【大数据实时数据同步】超级详细的生产环境OGG(GoldenGate)12(1),2024年最新面经解析
博主所在单位目前使用Oracle GoldenGate将各个业务生产库汇聚到一起做数仓实时ODS平台,源端库可能涉及Oracle、Mysql、达梦、Guassdb库。之前写过一系列关于GoldenGate异构同步Mysql、Kafka、Kylin、Flink做实时计算的场景文章。但是突然发现,卧槽最最最应该第一个做的Oracle->Oracle的实时异构同步文档竟然没写!来弥补一下这个空白!!!好了,扯远了,回归技术!原创 2024-05-11 19:14:21 · 908 阅读 · 0 评论 -
大数据最全【大数据】Kafka高频面试题(三)_kafka高平面试题(1),2024年最新美团大数据开发开发工程师岗位职能要求
Kafka集群可以透明的扩展,增加新的服务器进集群: Kafka每个Partition数据会复制到几台服务器,当某个Broker失效时,Zookeeper将通知生产者和消费者从而使用其他的Broker。原创 2024-05-11 19:13:45 · 719 阅读 · 0 评论 -
大数据最全【剑指 Offer 03(2),2024年最新大专生面试阿里P7居然过了
【代码】大数据最全【剑指 Offer 03(2),2024年最新大专生面试阿里P7居然过了。原创 2024-05-11 19:13:09 · 121 阅读 · 0 评论 -
一文速学-XGBoost模型算法原理以及实现+Python项目实战_xgboost金融领域模型实战
2014年:XGBoost由陈天奇在《XGBoost: A Scalable Tree Boosting System》一文中首次提出。2015年:XGBoost在Kaggle竞赛中大放异彩,成为数据科学家和机器学习工程师的首选算法之一。2016年:XGBoost发布了C++和Python两个版本,支持更多的特征工程和模型调优功能,极大地提高了算法的效率和可扩展性。2017年:XGBoost获得了KDD Cup 2017竞赛中的多个奖项,并且成为Spark MLlib中的重要组件。原创 2024-05-11 05:19:07 · 1257 阅读 · 0 评论 -
一文透析 Spring Boot、微服务架构和大数据治理三者之间的故事(3)
微服务架构是 SOA 架构的传承,但一个最本质的区别就在于微服务是真正的分布式的、去中心化的。随着微服务架构的落地,人们发现微服务架构虽然改进了开发模式,但同时也引入了一些问题,在这所有的问题中,最重要的也是马上要面临的一个问题就是数据的问题。如果还按照以前传统开发模式,开发一个大型而全的系统已经很难满足市场对技术的需求,这时候分而治之的思想被提了出来,于是我们从单独架构发展到分布式架构,又从分布式架构发展到 SOA 架构,服务不断的被拆分和分解,粒度也越来越小,直到微服务架构的诞生。原创 2024-05-11 05:18:30 · 666 阅读 · 0 评论 -
一文透析 Spring Boot、微服务架构和大数据治理三者之间的故事(2)
Spring Boot 本身发展特别快,自从 2014 年 4 月发布 Spring Boot 1.0 之后,版本更新非常频繁,我在 2016 年使用的时候是 1.3.X,到现在 Spring Boot 已经发布了 Spring Boot 2.0,Spring Boot 2.0 集成了很多最新优秀的技术和新特性,并且对 Spring Boot 1.0 的 API 进行了大幅优化。在线处理数据的方案就是按照微服务的标准接口来进行,后端需要哪个系统的数据就去调用某个微服务提供的接口来获取。原创 2024-05-11 05:17:54 · 733 阅读 · 0 评论 -
一文透析 Spring Boot、微服务架构和大数据治理三者之间的故事(1)
Spring Boot 本身发展特别快,自从 2014 年 4 月发布 Spring Boot 1.0 之后,版本更新非常频繁,我在 2016 年使用的时候是 1.3.X,到现在 Spring Boot 已经发布了 Spring Boot 2.0,Spring Boot 2.0 集成了很多最新优秀的技术和新特性,并且对 Spring Boot 1.0 的 API 进行了大幅优化。在微服务架构中我们强调彻底的组件化和服务化,每个微服务都可以独立的部署和投产,其实也就意味着很多的微服务有自己独立的数据库。原创 2024-05-11 05:17:18 · 819 阅读 · 0 评论 -
「Python入门」Python代码规范(风格)_python程序通过什么来区分代码块的级别(2)
想要写好python代码,必须了解python相关编码规范,本文主要分享相应的python编码规范。原创 2024-05-10 20:40:30 · 892 阅读 · 0 评论 -
「Python入门」Python代码规范(风格)_python程序通过什么来区分代码块的级别(1)
JSON(全名:JavaScript Object Notation 对象表示法)是一种轻量级的文本数据交换格式,JSON的数据格式其实就是python里面的字典格式,里面可以包含方括号括起来的数组,也就是python里面的列表。原创 2024-05-10 20:39:54 · 863 阅读 · 0 评论 -
「Java 数据结构和算法」:图文详解---中缀表达式转后缀表达式。_中缀表达式转后缀表达式流程图
首先判断是否栈满,栈满后则不能继续添加,先对栈顶进行加一,然后再放入数据。首先判断栈空,出栈操作其实就是将top减一即可,return stack[top–];这样操作是为了让我们知道出栈的数据是什么。原创 2024-05-10 20:39:18 · 753 阅读 · 0 评论 -
「Java 数据结构」:手撕单链表的增删改查及大厂面试题。_java手撕单链表
不难看出,倒数第二个结点也是顺序的第三个结点,也就是将倒数的结点转换成顺序结点,遍历链表找到顺序结点即可。因为是有明确表示是第几个结点,所以我们需要知道结点的有效个数,前面我们介绍了有效个数的求法,直接用即可。比如:k = 2,count = 4, 倒数第2个结点也就是顺序第(4 - 2 + 1 = 3)个结点。首先创建辅助变量temp用于循环原来的链表,辅助变量temp1记录temp的下一个位置,每遍历到一个结点就插入到新链表的头部,这种方式称为头插法。原创 2024-05-10 20:38:41 · 208 阅读 · 0 评论