程序员
文章平均质量分 88
普通网友
这个作者很懒,什么都没留下…
展开
-
基于PySpark的10亿级数据集LAION-5B元数据快速处理实践(全文分享)_laion-5b license
其中每个数据集官方提供了原始图片的URL,可以根据URL下载图片文件,以及些URL上的标签。这部分元数据被存储在parquet文件中。原创 2024-05-15 09:39:38 · 399 阅读 · 0 评论 -
基于neo4j知识图谱+flask的大数据医疗领域知识问答系统(完整源码+源码解析+开发文档
基于知识图谱+flask的KBQA医疗问答系统基于医疗方面知识的问答,通过搭建一个医疗领域知识图谱,并以该知识图谱完成自动问答与分析服务。基于知识图谱+flask的KBQA医疗问答系统以neo4j作为存储,本系统知识图谱建模使用的最大向前匹配是一种贪心算法,从句首开始匹配,每次选择最长的词语。由于只需一次遍历,因此在速度上相对较快。算法相对简单,容易实现和理解,不需要复杂的数据结构。对于中文文本中大部分是左向的情况,最大向前匹配通常能够较好地切分。原创 2024-05-15 09:39:02 · 356 阅读 · 0 评论 -
基于Mybatis-Plus实现Geometry字段在PostGis空间数据库中的使用_mybatisplus postgis
Setter@Getter@ToString@TableId提醒:1、在属性上使用@TableField(typeHandler=xxx)来指定对应的类型转换器。2、需要在实体上定义autoResultMap=true。否则配置不一定生效。!!原创 2024-05-15 09:38:26 · 467 阅读 · 0 评论 -
基于Mybatis-Plus实现Geometry字段在PostGis空间数据库中的使用_mybatisplus postgis(3)
的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!原创 2024-05-15 09:37:50 · 439 阅读 · 0 评论 -
【一起学Rust 进阶篇 Grid库】二维表数据结构——Grid_grida结构软件
安装好以后,学习的时候先运行官方案例。原创 2024-05-15 01:01:17 · 237 阅读 · 0 评论 -
【一起学Rust 进阶篇 Grid库】二维表数据结构——Grid_grida结构软件(2)
Grid是个连续可增长的二维数据结构。这个 crate 的目的是提供一个比简单的解决方案更快、使用更少的内存并且更容易使用的通用的数据结构。Grid就像C语言风格的二维数组一样使用,拥有连续的存储内存。注意Grid采用行优先的方式进行内存布局,因此使用要比快得多。原创 2024-05-15 01:00:40 · 320 阅读 · 0 评论 -
【一起学Rust 进阶篇 Grid库】二维表数据结构——Grid_grida结构软件(1)
判断新数组是否与相等官方提供的案例完整代码如下。原创 2024-05-15 01:00:04 · 268 阅读 · 0 评论 -
【一起学Rust 基础篇】Rust基础——变量和数据类型_rust 变量指定数据类型
以上就是本期所要讲述的内容了。本期主要讲了变量的定义变量的可变性基本变量类型整型布尔型字符型复合型数组元组常量虽然很努力的组织内容了,但还是感觉不是很合理,在后期一定要调整,方便新手入门,让更多人能够学到Rust。作业完成以下作业是你学好rust的重要组成部分。以下题目摘自《Rust练习实践》原创 2024-05-15 00:59:28 · 601 阅读 · 0 评论 -
GaussDB(DWS)云原生数仓技术解析:湖仓一体,体验与大数据互联互通_gaussdbdws 数据中台(1)
云计算时代,数仓能为我们带来哪些便利?GaussDB(DWS)即将发布的云原生数仓如何构筑新一代数据仓库的技术底座,在云原生数仓的地基之上,数据时代的产业又将如何扩张、拓展?在本文中我们将带您解密华为云新一代云数仓 GaussDB(DWS) 3.0 的核心技术与划时代意义。声明:本文由作者“白鹿第一帅”于 CSDN 社区原创首发,未经作者本人授权,禁止转载!爬虫、复制至第三方平台属于严重违法行为,侵权必究。文章作者白鹿第一帅作者主页,未经授权,严禁转载,侵权必究!原创 2024-05-14 15:38:37 · 436 阅读 · 0 评论 -
Flink的一个常见小坑 missing parameter type(从源码分析为啥换一个导入就可以)
/重头戏是这个隐式的implicitly[TypeInformation[T]]//寻找闭包函数,这个是常规操作。原创 2024-05-14 15:38:01 · 248 阅读 · 0 评论 -
Flink的一个常见小坑 missing parameter type(从源码分析为啥换一个导入就可以)(3)
点进来一看,这里没有什么问题呀,这里也确实没有问题。底层的原因是什么呢?我带着这个好奇心去源码里面看了一下。原创 2024-05-14 15:37:25 · 255 阅读 · 0 评论 -
Flink的一个常见小坑 missing parameter type(从源码分析为啥换一个导入就可以)(2)
使用@Lombok对class进行注解。原创 2024-05-14 15:36:49 · 373 阅读 · 0 评论 -
2024年最全大数据分析那点事,2024年华为大数据开发面经
*数值型数据属于一种特殊分类数据,即可以按数值型数据进行分类统计,如按每个年龄值进行分类统计,按每个收入值进行分类统计,不过类别值越多,其分类就越细,通常也就越难发现潜在规律。Python是一种免费、自由的编程语言,所以也称为Python语言,可以称得上既简单又功能强大的编程语言,它可用于软件、游戏、Web开发以及运维,当然也可以应用于数据分析、数据挖掘、数据可视化等,是一款强大的数据分析、数据挖掘工具。**常见的数据处理方法包括:**数据清洗、数据合并、数据抽取、数据计算、数据转换几大类方法。原创 2024-05-14 07:00:33 · 910 阅读 · 0 评论 -
2024年最全大数据分析-零基础学Tableau+超详细讲解+示例练习(八),2024年最新意外的惊喜
首先 创建两个字段,中国电影和美国电影总数。将年代更改为数字整数,创建数据桶,绘制完毕。如下图所示,生成漏斗图。原创 2024-05-14 06:59:57 · 347 阅读 · 0 评论 -
2024年最全大数据分析-零基础学Tableau+超详细讲解+示例练习(三),掌握这6大技能体系
动态气泡图绘制,在动态气泡图绘制时要把时间维度加上,根据情况选择是否选择轨迹,选好横纵坐标轴,右边可以设置循环速度。可以用智能推荐的方式(或者将标记设置为方形)快速创建凸显表,凸显表的本质也是表格,用表格表达数据的一种方式。词云图的绘制时从气泡图开始的,我们绘制好气泡图之后,将标记改为文本即可生成词云图。大小表示的是记录数的总计,颜色越深票房越高,可以通过智能推荐来绘制树形图。将渐变颜色设置为2阶,勾选倒序排序,并根据需要设置中心。气泡的大小代表电影数量的多少,颜色代表不同的类型。原创 2024-05-14 06:59:21 · 282 阅读 · 0 评论 -
2024年最全大数据分布式事务的深入理解?,15分钟的字节跳动视频面试
A账户跨行向B账户转账,第一阶段为银联收到转账申请后先向A账户所在银行发起扣钱操作,A只执行不提交也就是只在内存中对金额进行扣减但是不写入到磁盘中然后把执行成功的消息告诉银联,接着银联再向B的所在的银行发起加钱操作也只是在内存中对账户金额进行增加并不写入磁盘,然后再把执行成功的消息也告诉银联,第一阶段也可称为投票阶段,如果A、B操作都成功则投票成功,否则为失败。事务的理解,比如你要将账户A转1块钱到账户B中,那么这个行为在执行时会被拆分成两个步骤,第一步是将A账户扣掉1块钱,第二步就是将B账户加上1块钱;原创 2024-05-14 06:58:45 · 821 阅读 · 0 评论 -
2024年大数据最新ES学习日记(一)-------单节点安装启动_es 单节点运行启动命令,鬼知道我经历了啥
GeoLite2/GeoIP全球ASN-IP离线定位库,官网地址:https://dev.maxmind.com/geoip/geolocate-an-ip?我们现在并不需要这个库,但是elasticsearch启动却需要连接这个库,所以我们需要将这个连接的配置关闭,让启动的时候不去连接这个库。创建用户组,设置es操作用户:groupadd es,向ES用户组添加用户es:useradd es -g es。root权限变更为es权限 : chown -Rf es:es /home/local/es/原创 2024-05-13 22:12:20 · 280 阅读 · 0 评论 -
2024年大数据最新ElasticSearch面试题整理(持续更新)_elsearch面试题,真是恍然大悟啊
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!5. Elasticsearch更新和删除文档的过程6. Elasticsearch创建索引文档的过程7. 了解文本相似度 TF-IDF吗TF = Term Freq原创 2024-05-13 22:11:44 · 686 阅读 · 0 评论 -
2024年大数据最新ElasticSearch第四章(数据同步和集群)(1),2024年最新2024年最新大数据开发面试精讲
因为ES中的是数据来自业务数据也就是数据库,比如mysql等,那么就需要把数据库的数据同步到ES中,那么什么时候进行数据同步呢?原创 2024-05-13 22:11:08 · 380 阅读 · 0 评论 -
2024年大数据最新Elasticsearch使用教程,2024年最新大数据开发系统面试题
GET my_index/_analyze { “analyzer”: “ik_max_word”, “text”:“蔡徐坤” }原创 2024-05-13 22:10:31 · 929 阅读 · 0 评论 -
每天一道大厂SQL题【Day11】微众银行真题实战(一)_微众银行大数据面试(1)
开发阶段,我们可以事先将表缓存起来,并且降低分区数比如为6,那么查缓存表大大提升了开发效率。duebill_id string comment ‘借据号’, uid string,)partitioned by (ds string comment ‘日期分区’);duebill_id string comment ‘借据号’,–技巧:如果查询debt表,由于分区数太多,导致查询很慢。ds string comment ‘日期分区’– 上线阶段,再用实际表替换缓存表。– 创 建 借 据 表。原创 2024-05-12 19:15:32 · 733 阅读 · 0 评论 -
每天一道大厂SQL题【Day10】电商分组TopK实战_有一个账号表如下,请写出 sql 语句,查询各自区组的 money 排名前十的账号(分组 取
gold int ’ 金 币 ’ 实现请写出SQL语句,查询充值日志表2019年01月02号每个区组下充值额最大的账号,要求结果: 区组id,账号,金额,充值时间。原创 2024-05-12 19:14:56 · 744 阅读 · 0 评论 -
每天一道大厂SQL题【Day10】电商分组TopK实战_有一个账号表如下,请写出 sql 语句,查询各自区组的 money 排名前十的账号(分组 取(3)
4、数据量要小,工具要快,如果用hive,就设置set hive.exec.mode.local.auto=true;,每个中间步骤都执行打印结果,看是否符合预期, 根据中间结果,进一步调整修饰SQL语句,再执行,直到接近结果表。从源表到结果表,一路可能要走多个步骤,其实就是可能需要多个子查询,过程多就用with as来重构提高可读性。参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。然后,可以使用排序,对每个分组按金额从大到小排序,并选取前10个记录。原创 2024-05-12 19:14:19 · 806 阅读 · 0 评论 -
每天一道大厂SQL题【Day10】电商分组TopK实战_有一个账号表如下,请写出 sql 语句,查询各自区组的 money 排名前十的账号(分组 取(2)
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2024-05-12 19:13:40 · 537 阅读 · 0 评论 -
最全金融数据_PySpark-3(1),2024年“金三银四”来袭
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!2015-11-13,'000422,7.49,7.55,7.36,7.38,7.54,-0.021220,0.029196,26214400,7.53,7.412原创 2024-05-12 10:43:49 · 399 阅读 · 0 评论 -
最全金九银十|前端真实面试知识点梳理_前端项目经历的 star 法则(2),直面秋招
保证函数是独立可复用的,每次实例化一个组件的时候,都是可以生成一个data对象的,相互之间不干扰。原创 2024-05-12 10:43:12 · 267 阅读 · 0 评论 -
最全配置项目的git(1),大数据开发开发基础在线培训学校
注意默认的分支,需要上 git 管理端设置,不能通过 git 命令完成。原创 2024-05-12 10:42:36 · 377 阅读 · 1 评论 -
最全进阶C语言——数据的存储【详解】(1),你有过迷茫吗
大端(存储)模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;小端(存储)模式,是指数据的低位保存在内存的低地址中,而数据的高位,,保存在内存的高地址中为什么会有大小端模式之分呢?这是因为在计算机系统中,我们是以字节为单位的,每个地址单元 都对应着一个字节,一个字节为8 bit。原创 2024-05-12 10:41:59 · 324 阅读 · 0 评论 -
大数据最新数学基础从高一开始1、集合的概念_高一集合的概念,大数据开发开发者必看
2、衡水一中今年入学的全体高一学生;3、地球上的四大洋;4、不等式x-7原创 2024-05-12 02:06:05 · 644 阅读 · 0 评论 -
大数据最新数仓实践:浅谈 Kimball 维度建模_kimball维度建模,2024年最新大数据开发详解
雪花架构是对星形架构维度表的规范化,比如上述的商品表例子,在雪花架构中,其每一行仅存储品牌 ID ,而品牌的所有其他信息(包括品牌名称、拥有者、注册地等所有描述信息)都存储在单独的品牌维度表内。星形架构中,每个维度都是均等的,所有维度表都是进入事实表的对等入口,用户可以从任一维度、任一维度属性或者任意多个维度组合、任意多个维度属性组合,方便地对数据进行过滤和聚合(汇总、均值、最大、最小等)操作,而且非常符合业务分析直觉。业务是多变的,模型的设计必须能够经受住业务多变的需求。原创 2024-05-12 02:05:29 · 644 阅读 · 0 评论 -
大数据最新数仓实践:企业级 CDP 数据工程实践经验_cdp系统中事件和属性(1),一文搞懂
通过对数据质量的评估,我们可以了解数据的可靠性和可用性,并为后续的数据处理和分析工作提供基础。:在调研过程中,我们需要详细了解数据的内容和数据之间的关系。通过了解客户的数据,以及评估数据的内容、关系和质量,我们可以确保在后续的数据工程实践中获得高质量和有价值的数据资源。通过对标签体系和口径数据的梳理,我们可以确保在后续的数据处理和分析过程中,能够基于准确和可靠的标签数据进行业务指标的衡量和分析。通过有效的ETL运维工作,我们能够保证ETL系统的稳定运行,及时处理数据质量问题,并适应业务需求的变化。原创 2024-05-12 02:04:53 · 828 阅读 · 0 评论 -
大数据最新搭建简易的hadoop集群(完全分布式),2024年最新最新大数据开发面试题整理
确保3台节点启动成功打开xshell,新建两个会话点击确定点击确定选中3个会话,点击连接弹出如下提示,输入yes即可。原创 2024-05-12 02:04:16 · 369 阅读 · 0 评论 -
大数据最全Flink CDC实时同步PG数据库_flink cdc pg,分析大数据开发未来几年的发展前景
/ 日期格式转换时区@Override// 1. 创建一个JSONObject用来存放最终封装好的数据// 2. 解析主键// 3. 解析值//将数据封装到JSONObject中架构名 看是否需要//将数据发送至下游val = null;return val;!!!原创 2024-05-11 17:26:15 · 530 阅读 · 0 评论 -
大数据最全Flink CDC 高频面试题_flinkcdc面试,【性能优化实战
(1)在快照阶段,根据。原创 2024-05-11 17:25:39 · 233 阅读 · 0 评论 -
大数据最全Fiddler入门:下载、安装、配置、抓包、customize rules,2024年最新完美讲解内存缓存LruCache实现原理
其中判断请求url中是否包含路径是oSession.fullUrl.Contains方法,将字符串转为json的是Fiddler.WebFormats.JSON.JsonDecode(response_body)方法,获取对象中的json是response_json.JSONObject方法,打印日志是FiddlerApplication.Log.LogString(video_name)方法。一般APP都有web端主页,也有微信小程序,所以APP的网络请求可以通过web端主页看,或者通过小程序看。原创 2024-05-11 17:25:03 · 390 阅读 · 0 评论 -
大数据最全ElscticSearch基础操作_elticsearch9(1),2024年最新高级大数据开发开发必看
只需要在_doc后面添加指定的ID即可。原创 2024-05-11 17:24:26 · 282 阅读 · 0 评论 -
【机器学习算法】神经网络与深度学习-7 DNN深度学习算法模型出现学习效果不好的情况,如何补救,对策如下,建议收藏
DNN的其他设置。设定一个学习目标,然后利用梯度下降法,训练好神经网络。用训练数据训练这个网络,然后再用测试数据进行训练。如果训练数据的的结果都不好的话,就直接把这个模型重新建模。那就没有必要去跑测试,如果训练数据结果不错,就可以通过测试数据测试结果如何,如果测试数据结果不好,说明训练数据建模的模型出现过拟合现象。就要考虑减少层数,如果测试结果和训练结果都不错,那就说明,效果都不错。根据情况的不同,调整参数。有些参数是用来解决测试数据效果不好的问题,有些数据是用来解决训练数据效果不好的问题,原创 2024-05-11 03:31:42 · 564 阅读 · 0 评论 -
【机器学习算法】神经网络与深度学习-7 DNN深度学习算法模型出现学习效果不好的情况,如何补救,对策如下,建议收藏(1)
我们神经网络的误差优化方法一般使用的都是Square Error,利用实际值和输出值的平方差来进行误差调整,都是既然我们测试集的数据错误率很高,我们就可以采用不同的误差公式计算,比如Cross entropy=就是对每一项都用目标字段的值乘以输出字段取自然数为底对数的对数值的累积求和,(含义就是,当你标准字段上得到值越大,entropy得到值就会越小,只考虑,标准答案的概率值。会导致最后的结果与你输入资料的顺序有关,先输入的资料先调整,后输入的模型后调整,导致模型的稳定性不高。根据情况的不同,调整参数。原创 2024-05-11 03:31:07 · 979 阅读 · 0 评论 -
【期末复习】计算机网络 谢希仁版(六)应用层_以下应用层协议中,不采用c s工作模式的是( )
也就是说,网页 URL的后缀不是.htm、.html、.shtml、.xml等静态网页的常见形动态网页制作格式,而是以.aspx、.asp、.jsp、.php、.perl、.cgi等形式为后缀,并且在动态网页网址中有一个标志性的符号——“?本地域名服务器经过三次迭代查询后,从权限域名服务器dns.abc.com得到了主机y.abc.com的IP地址,最后把结果返回给发起查询的主机m.xyz.com。由于HTTP是面向文本的,因此在报文中的每一个字段都是一些ASCII码串,因此各个字段的长度都是不确定的。原创 2024-05-11 03:30:31 · 773 阅读 · 0 评论 -
【期末复习】计算机网络 谢希仁版(六)应用层_以下应用层协议中,不采用c s工作模式的是( )(5)
也就是说,网页 URL的后缀不是.htm、.html、.shtml、.xml等静态网页的常见形动态网页制作格式,而是以.aspx、.asp、.jsp、.php、.perl、.cgi等形式为后缀,并且在动态网页网址中有一个标志性的符号——“?本地域名服务器经过三次迭代查询后,从权限域名服务器dns.abc.com得到了主机y.abc.com的IP地址,最后把结果返回给发起查询的主机m.xyz.com。由于HTTP是面向文本的,因此在报文中的每一个字段都是一些ASCII码串,因此各个字段的长度都是不确定的。原创 2024-05-11 03:29:55 · 783 阅读 · 0 评论