程序员
文章平均质量分 88
2401_84184729
这个作者很懒,什么都没留下…
展开
-
基于Python+大数据城市景观画像可视化系统设计和实现_基于python构建小区绿化数据分析数据分析
【代码】基于Python+大数据城市景观画像可视化系统设计和实现_基于python构建小区绿化数据分析数据分析。原创 2024-05-15 09:42:12 · 180 阅读 · 0 评论 -
基于Python+Spark的国产漫画推荐系统(爬虫+可视化大屏)_大数据推荐系统流程图
随着人工智能技术的飞速发展,数据驱动的推荐系统成为了满足用户个性化需求的重要工具。特别是在漫画产业中,如何从海量数据中提取有价值的信息,推荐符合用户喜好的漫画作品,具有重要的实际应用价值。本文旨在探讨利用Spark技术进行大数据爬虫漫画推荐系统的研究,以期为漫画产业的可持续发展提供新的思路和方法。在当今信息化社会,人们对信息的需求日益增长,而漫画作为一种深受大众喜爱的艺术形式,其产业发展迅速,涵盖了网络、出版、影视等多个领域。然而,面对如此庞大的漫画作品库,如何选择适合自己的作品成为了用户面临的难题。原创 2024-05-15 09:41:36 · 135 阅读 · 0 评论 -
基于Python+Spark的国产漫画推荐系统(爬虫+可视化大屏)_大数据推荐系统流程图(2)
系统用户登录,在登录页面选择需要登录的角色,在正确输入用户名和密码后,进入操作系统进行操作;如图所示。管理员点击漫画数据管理。原创 2024-05-15 09:41:00 · 231 阅读 · 0 评论 -
基于Python+Spark的国产漫画推荐系统(爬虫+可视化大屏)_大数据推荐系统流程图(1)
管理员点击漫画数据管理。数据爬取:系统可以自动爬取各大漫画平台的漫画数据,包括漫画的图片、简介、评分等信息。数据存储:系统可以存储大量的漫画数据,包括漫画的图片、简介、作者、出版社等信息。数据统计和分析:系统可以对漫画数据进行统计和分析,为推荐算法提供数据支持。系统设置:管理员可以设置系统的各项参数,包括推荐算法的参数、系统的响应等。数据更新:系统可以更新漫画数据,保证数据的时效性和准确性。原创 2024-05-15 09:40:23 · 89 阅读 · 0 评论 -
【一起学Rust 进阶篇 thesaurus-rs库】Rust 的离线同义词库——thesaurus-rs_rust 离线库
是一个完全基于Rust实现的离线的同义词库,可以使用wordnet和moby词库作为后端(白鲸和词网)。显而易见,就是通过你给出的一个单词,然后给出这个单词的同义词,就类似于字典。原创 2024-05-15 01:03:50 · 212 阅读 · 0 评论 -
【一起学Rust 进阶篇 thesaurus-rs库】Rust 的离线同义词库——thesaurus-rs_rust 离线库(3)
是一个完全基于Rust实现的离线的同义词库,可以使用wordnet和moby词库作为后端(白鲸和词网)。显而易见,就是通过你给出的一个单词,然后给出这个单词的同义词,就类似于字典。原创 2024-05-15 01:03:14 · 238 阅读 · 0 评论 -
【一起学Rust 进阶篇 thesaurus-rs库】Rust 的离线同义词库——thesaurus-rs_rust 离线库(2)
本期学习了Rust 的离线同义词库,通过简单的API就可以实现离线查询单词同义词,可惜只有英文的,该库较为简单,且在用途上较为单一,除了使用简单以外真的很难找出什么优点。网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!原创 2024-05-15 01:02:38 · 293 阅读 · 0 评论 -
【一起学Rust 进阶篇 thesaurus-rs库】Rust 的离线同义词库——thesaurus-rs_rust 离线库(1)
将下面的crate添加到你的Cargo.toml文件中注意:这里features添加了两项,分别是moby和static,表明使用的是moby后端,同时也表明,默认的后端是WordNet,这里默认配置的是WordNet和static。static是个默认开启的功能,即词库词典在运行时存储在内存中。这样做的好处是初始化以后,对dict和synonyms的调用速度提升了 2.5-3 倍,同时增加了内存使用量。你可以关闭它,使用,就和上方的使用方法一样。原创 2024-05-15 01:02:02 · 192 阅读 · 0 评论 -
GitHub 搜索技巧 - 带你一步步找优质项目 带 gif 演示图_github搜索图片
本文总共介绍从 3 个方面搜索项目的技巧,分别是:1.通过 in:name 方式,即匹配仓库(项目)名中是否含某关键词2.通过 in:readme 方式,即匹配自述文件中是否含某关键词3.通过 in:description 方式,即匹配仓库(项目)名或描述中是否含某关键词如有疑问,欢迎留言讨论~我是一条「 以下图片为注脚 ಠ‿ಠ ღ」分割线↩︎↩︎既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!原创 2024-05-14 15:41:11 · 141 阅读 · 0 评论 -
GitHub 搜索技巧 - 带你一步步找优质项目 带 gif 演示图_github搜索图片(2)
我们先来学习第一种搜索方法,通过 in:name 方式搜索项目。首先,打开,鼠标锁定。比如我想学习一共搜索出来 13.5万个结果,这样的搜索出来的仓库(项目)太广泛了,因此,我们可以限定一下搜索条件。比如我想查询比较受欢迎的项目 ,那我应该怎么添加搜索条件呢?我们都知道一个项目的的受欢迎程度是与 stars 数目挂钩的。加上限制条件 3000 stars,项目数从 13.5 万直接锐减到 16 个。这个 3000 大家视情况更改,现在大家发现没有,搜索的适合的项目越来越少了,也越来越精确了。原创 2024-05-14 15:40:35 · 278 阅读 · 0 评论 -
GitHub 搜索技巧 - 带你一步步找优质项目 带 gif 演示图_github搜索图片(1)
这个 3000 大家视情况更改,现在大家发现没有,搜索的适合的项目越来越少了,也越来越精确了。现在直接剩下 8 个项目了。有人说,虽然只剩下几个项目了,但是都是高星项目,太大了,我是一个小白,看不懂,学不来怎么办?那么我们就可以试试换一种方式搜索了。原创 2024-05-14 15:39:59 · 220 阅读 · 0 评论 -
GaussDB(DWS)云原生数仓技术解析:湖仓一体,体验与大数据互联互通_gaussdbdws 数据中台
数据仓库需求场景的公有云场景是指将数据仓库部署在公有云中的场景。其中,公有云指的是由第三方服务商提供的云计算基础设施,例如亚马逊云服务(AWS)、微软云服务(Azure)、谷歌云平台(GCP)等。原创 2024-05-14 15:39:22 · 128 阅读 · 0 评论 -
2024年最全大数据学习第三天(2),如果不想35岁被淘汰这篇文章必看
(1)如:将id字段修改为stu_id字段并且改为varhcar数据类型。create database if not exists 数据库名;(2)mysql --user=用户名 --password=密码。(1)cmd之后使用mysql -u用户名 -p密码。(1)快速格式化快捷键:ctrl +alt + L;(2)/**/ //多行注释。(2)运行代码:ctrl + enter;(2)describe 表名;(1)# //单行注释。:%s/旧文本/新文本 //文本替换。原创 2024-05-14 07:03:07 · 699 阅读 · 0 评论 -
2024年最全大数据存储技术之ClickHouse入门学习(一),限时发布
集群定义的元数据在zookeeper中保存,如果修改了已定义好的集群表的集群配置可能会导致表变成只读状态,这时需要去zookeeper上查看clickhouse的元数据信息是否和当前表匹配。在 tgz 安装的版本中,clickhouse服务端默认配置的 /etc/clickhouse-server/config.xml 中已经默认配置了三个本地测试的分片副本集群,分别为。在rmp安装的版本中,clickhouse服务端默认配置的 /etc/clickhouse-server/config.xml 中表明。原创 2024-05-14 07:02:31 · 527 阅读 · 0 评论 -
2024年最全大数据存储与访问(2),2024年最新9次大数据开发面试经验总结
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。原创 2024-05-14 07:01:54 · 308 阅读 · 0 评论 -
2024年最全大数据基础设施搭建 - Flink(1),2024年最新BTAJ面试有关散列(哈希)表的面试题详解
在yarn的WEB-UI界面,点击任务的History位置,如果Flink历史服务器生效就会跳转到Flink历史服务器UI界面,否则会跳转到Yarn的UI界面。YARN的会话模式与独立集群略有不同,需要首先申请一个YARN会话(YARN Session)来启动Flink集群。应用模式:应用程序jar的main()方法将在YARN中的JobManager上执行。将Flink应用程序用到Flink集群中的lib上传到Hadoop集群上。-nm(–name):配置在YARN UI界面上显示的任务名。原创 2024-05-14 07:01:18 · 525 阅读 · 0 评论 -
2024年大数据最新Flink之FileSink将数据写入parquet文件_flink写parquet文件(1),2024年最新一文说清
那样可以通过时间和文件大小来控制文件滚动,注释中我也讲了是为了保证列式存储文件的完整性,因为列式文件中记录了很多信息,并不想行式存储文件一行一行的写就行,写到某一行直接停了也不影响文件的使用,而列式存储文件中不单单是记录了数据本身还有对应的字段类型、文件头信息、文件尾信息、切片索引等很多信息,如果在写入数据时某一刻直接停止了,而文件还没有生成完整的信息那就会导致这个列士存储文件根本不具备使用性,是无法进行解析的。文件然后进行编译的方式,在代码中我们使用的第二种方式,使用第一种方式同样会出现很多。原创 2024-05-13 22:14:53 · 318 阅读 · 0 评论 -
2024年大数据最新FlinkSQL学习笔记(三)常用连接器举例,2024必看
JDBC sink 将以 upsert 模式与外部系统交换 UPDATE/DELETE 消息;否则,它将以 append 模式与外部系统交换消息且不支持消费 UPDATE/DELETE 消息。Jdbc作为source的时候,支持scan模式和lookup模式,适用于 Apache Flink 的 CDC 连接器是一组适用于 Apache Flink 的源连接器,使用。JDBC 连接器允许使用 JDBC 驱动向任意类型的关系型数据库读取或者写入数据。如果在 DDL 中定义了。作为捕获数据更改的引擎。原创 2024-05-13 22:14:17 · 461 阅读 · 0 评论 -
2024年大数据最新Flink 大数据 学习详情,2024年大数据开发面试题
flink提交作业和执行任务,需要几个关键组件:客户端(client):代码由客户端获取并作转换,之后提交给 jobManagerJobManager:就是flink集群里的“管事人”,对作业进行中央调度管理;原创 2024-05-13 22:13:41 · 651 阅读 · 0 评论 -
2024年大数据最新Flink CDC-Oracle CDC配置及DataStream API实现代码(1),2024年最新一份非常适合收藏的大数据开发进阶面试题
/源数据库连接配置文件//Debezium配置//参考 https://debezium.io/documentation/reference/1.6/connectors/oracle.html#oracle-property-log-mining-strategy//decimal.handling.mode指定connector如何处理DECIMAL和NUMERIC列的值,有3种模式:precise、double和string。原创 2024-05-13 22:13:05 · 831 阅读 · 0 评论 -
每天一道大厂SQL题【Day13】微众银行真题实战(三)_编写sql语句,基于《借据表》统计2024年7月各产品逾期30天以上的余额不良率及(1)
逾期30-90天 | | | || 逾期90天以上 | | | || 逾期合计 | | | || 不良合计 | | | |原创 2024-05-12 19:18:06 · 431 阅读 · 0 评论 -
每天一道大厂SQL题【Day12】微众银行真题实战(二)_sql 产品不良率
链接:https://pan.baidu.com/s/1Wiv-LVYziVxm8f0Lbt38Gw?参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。说明:SQL语法请使用HiveSQL/SparkSQL。阶课程,涵盖了95%以上大数据知识点,真正体系化!基于附录2《借据表》统计下述指标,请提供计SOL。方案2 使用grouping sets。方案1 使用union all。点击下方卡片关注 联系我进群。原创 2024-05-12 19:17:30 · 700 阅读 · 0 评论 -
每天一道大厂SQL题【Day12】微众银行真题实战(二)_sql 产品不良率(1)
参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。阶课程,涵盖了95%以上大数据知识点,真正体系化!方案2 使用grouping sets。方案1 使用union all。点击下方卡片关注 联系我进群。原创 2024-05-12 19:16:55 · 568 阅读 · 0 评论 -
每天一道大厂SQL题【Day11】微众银行真题实战(一)_微众银行大数据面试
预先将复用分数据集缓存起来,只用加载一次源表。cache table仅Spark支持,hive不支持。如果外貌好能够获得他人的关注,又有钱能够支持各种娱乐活动,谁会愿意每天呆在家里打游戏,刷微博,看电视剧。参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。1.基于附录《核额流水表》和附录2《借据表》统计下述指标,请提供统计SQL。先了解表数据的分布情况,有2年多,每天都有分区,共760多个分区。借用stack函数,性能与方案1一样 ,都只加载一次表。原创 2024-05-12 19:16:18 · 291 阅读 · 0 评论 -
最全面试总结------2024 04 04---项目(2),惊喜
在以上配置中,我们定义了一个名为order.exchange的直连交换机,以及一个名为order.queue的队列。我们还定义了一个DLX,名为order.dead-letter.exchange,并将队列order.queue绑定到DLX上。luaScript:这个Lua脚本从Redis获取指定商品的库存数量,如果库存充足,则减少库存数量,并返回1表示秒杀成功;在发送订单消息时,我们需要设置消息的TTL为30分钟,以便在30分钟后触发超时取消订单的逻辑。CANCELLED:已取消状态,表示订单已被取消。原创 2024-05-12 10:46:23 · 211 阅读 · 0 评论 -
最全静电学历史_静电现象发展历程(1),2024年最新【性能优化实战】
行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**19、20世纪,静电学从试验阶段走上了理论阶段,许多物理现象背后的科学问题不断地被解释、推导、验证、应用。电学的发展也不仅仅局限于静电学,开始向电磁学发展,进而又用电磁学的理论指导着静电学的发展。原创 2024-05-12 10:45:47 · 394 阅读 · 0 评论 -
最全随机森林应用案例 —— otto产品分类_随机森林分类实例,腾讯+华为+阿里面试真题分享
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!x_resampled,y_resampled = rus.fit_resample(x,y)x.shape,y.shapex_resampled.shape,y_原创 2024-05-12 10:45:11 · 388 阅读 · 0 评论 -
最全阿里云安装Hadoop全家桶,2024年最新我是如何拿到阿里、网易双offer的
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!vim xsync#!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]thenecho Not Enough Arguement!exi原创 2024-05-12 10:44:34 · 385 阅读 · 0 评论 -
大数据最新数据仓库解决方案——ODPS组件化改造之路(3),面试必问
***▐ 组件的如上,在实际业务实践中,有大量的SQL代码过程很类似,过程中输入的表和输出的表的结构是一样的或者是类型兼容的,仅仅是名字不同而已。这个时候组件的开发者就可以将这样的一个 SQL 过程抽象成为一个SQL组件节点,将里面可变的输入表抽象成输入参数,把里面可变的输出表抽象成输出参数,就可以实现 SQL 代码的复用。原创 2024-05-12 02:08:38 · 956 阅读 · 0 评论 -
大数据最新数据仓库建设方案详细:数据平台建设_三库数据平台建设方案,2024年最新大牛最佳总结
大数据平台能够通过对告警信息的分析,快速定位平台部出现故障的节点,对于因故障无法继续提供服务器的节点进行标记,将平台的作业任务自动分配到其他的节点上运行,同时,大数据平台采用分布式体系结构及无单点故障设计,平台任何节点的宕机都不会影响平台的稳定运行和业务的正常使用。通过web管理实现节点的动态添加、删除,当存储空间或者计算资源不足时,支持向集群中添加同等配置的服务器,实现大数据平台在线动态扩容,而不需要停机处理,不影响平台正常运行。通过管理平台可以看到所有目前已安装的服务组件的健康状况。原创 2024-05-12 02:08:02 · 851 阅读 · 0 评论 -
大数据最新数据仓库(基础篇)——基于维度建模思想_数据仓库维度穷举举例,2024年最新大数据开发基础视频教程
857数据交流技术峰会之数仓篇在开始本篇文章之前,我们需要先了解什么是数据仓库。要想全面的来看待数据仓库,首先要回答的是数据仓库搭建的目的:百度百科解释:数据仓库,英文名称Data Warehouse,数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。原创 2024-05-12 02:07:26 · 913 阅读 · 0 评论 -
大数据最新数据不平衡问题总结_数据不平衡会导致什么问题(1),年薪超过80万
数据不平衡,又称样本比例失衡。对于二分类问题,在正常情况下,正负样本的比例应该是较为接近的,很多现有的分类模型也正是基于这一假设。但是在某些特定的场景下,正负样本的比例却可能相差悬殊,如社交网络中的大V判断、电商领域的恶意差评检测、金融领域的欺诈用户判断、风控领域的异常行为检测、医疗领域的肿瘤诊断1.2 数据不平衡的常见形式及特点根据数据量的多少和数据不平衡程度,可以将数据不平衡问题分为以几类:(1)大数据+轻微数据不平衡(正负样本数量相差在一个数量级内)原创 2024-05-12 02:06:50 · 355 阅读 · 0 评论 -
大数据最全Flink实战(19):flink反压_什么是flink反压,月薪30K
flink反压(backpressure),简单来说就是当接收方的接收速率低于发送方的发送速率,这时如果不做处理就会导致接收方的数据积压越来越多直到内存溢出,所以此时需要一个机制来根据接收方的状态反过来限制发送方的发送速率,来达到一个两者速率匹配的状态。原创 2024-05-11 17:28:51 · 266 阅读 · 0 评论 -
大数据最全Flink入门之 DataSet API实现Word Count,热度飙升
TODO DataSet API 实现 wordcount(不推荐)// TODO 1. 创建执行环境。原创 2024-05-11 17:28:15 · 265 阅读 · 0 评论 -
大数据最全Flink借助Kafka实现端到端精准一次_flink 如何保障数据一致性(2),2024年最新大数据开发面试题最新
【代码】大数据最全Flink借助Kafka实现端到端精准一次_flink 如何保障数据一致性(2),2024年最新大数据开发面试题最新。原创 2024-05-11 17:27:39 · 372 阅读 · 0 评论 -
大数据最全Flink1,书籍+视频+学习笔记+技能提升资源库
完美的水位线是“绝对正确”的,也就是一个水位线一旦出现,就表示这个时间之前的数据已经全部到齐、之后再也不会出现了。不过如果要保证绝对正确,就必须等足够长的时间,这会带来更高的延迟。**如果我们希望处理得更快、实时性更强,那么可以将水位线延迟设得低一些。**这种情况下,可能很多迟到数据会在水位线之后才到达,就会导致窗口遗漏数据,计算结果不准确。当然,如果我们对准确性完全不考虑、一味地追求处理速度,可以直接使用处理时间语义,这在理论上可以得到最低的延迟。原创 2024-05-11 17:27:02 · 208 阅读 · 0 评论 -
【毕业季 进击的技术er】作为一名职场人,精心总结的嵌入式学习路线图_嵌入式技术+管理路线怎么走 (1)
后,基本嵌入式所涉及的技术已经掌握一半了,你也可以独立完成一些小的项目,也可以找到一个不错的工作,但是一定不要自我满足,有机会一定要接触Linux。对于Linux,有句老话“学习Linux,3年才算入门,5年才勉强算Linux工程师,对于不太熟悉的领域,博主也不敢妄加断言。两家的学习资料都非常丰富,既有详细的文档说明,也有完整的学习视频教程,非常适合新手入门学习。平台为基础,去学习目前嵌入式主流的一些技术,探寻底层的原理,做到不同平台,都能够得心应手。,经典著作,经久不衰,强烈推荐。原创 2024-05-11 03:34:16 · 936 阅读 · 0 评论 -
【机器学习算法】聚类分析-1 聚类是什么,我们如何确定类别间的相似性或者相异性_相似性聚类
我的主页目前进度:第四部分【机器学习算法】原创 2024-05-11 03:33:40 · 544 阅读 · 0 评论 -
【机器学习算法】聚类分析-1 聚类是什么,我们如何确定类别间的相似性或者相异性_相似性聚类(2)
我的主页目前进度:第四部分【机器学习算法】原创 2024-05-11 03:33:04 · 690 阅读 · 0 评论 -
【机器学习算法】聚类分析-1 聚类是什么,我们如何确定类别间的相似性或者相异性_相似性聚类(1)
3.怎么去描述各群的特征。实现我们解决第一个问题。原创 2024-05-11 03:32:28 · 1000 阅读 · 0 评论