自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(247)
  • 收藏
  • 关注

原创 猿创征文|Python快速刷题网站——牛客网 数据分析篇(十三)_牛客网用户常用语言有多少(1)

现有一个Nowcoder.csv文件,它记录了牛客网的部分用户数据,包含如下字段(字段与字段之间以逗号间隔):牛客网运营同学有一个活动,需要统计所有用户等级的中位数,但是为了去掉一些非常不活跃的账号,于是他们只统计刷题数量不低于10题的那部分用户。输入描述:输出描述:直接输出计算的中位数,输出类型为整型Int。median()以上为Series写法,你甚至可以使用DataFrame。

2024-05-16 11:14:42 505

原创 猿创征文| openGauss 数据库实战 主备高可用部署(主备部署模式)_opengauss主备部署

*对于数据库来说,稳定性压倒一切,其中包括核心功能,也包括用户生态和服务,所以国产数据库的稳定性验证周期还有待观察。同时数据库作为基础服务软件,过多的泛应用化会让数据库技术的基础沉淀不够扎实,而过度追求"ALL-IN-ONE"的设计理念,会让数据库技术难以聚焦,限制更大的发挥潜力。目前国产数据库现在迎来了最好的发展机遇,我们已经看到了芯片,服务器、安全等领域都在这个机遇到来时显现出了勃勃生机。

2024-05-16 11:13:36 550

原创 猿创征文 pycharm中的翻译插件translation以及将其更换为百度翻译获取ID和密钥的详细步骤_百度翻译api id和密钥分享

按上图所示,进行操作,首先选中plugins,点击之后在搜索栏中输入translation,你就看到上图中的内容,选中图上的translation并进行下载即可。,高级版也行注意一下自己用了多少次就行,后台会有记录的,那个高级版好像是每个月500万字符免费了,当然这个版本后面也是可以改过来的(我用的是标准版,还没改过)。继续看图操作,先点击配置,如果自己以前就有百度翻译的ID那自己输入就好了,没有就点击图中2部分。打开pycharm,鼠标点击File再打开的列表中再次点击Settings,如下图所示。

2024-05-16 11:13:03 584

原创 最全【趣学算法】Day4 分治算法——二分搜索_分治法之二分查找(3),2024年最新大数据开发音频面试

一般情况下,如果low和high的数值不大,可以采用 middle=(low+high)/2 或者 middle = (low + high) >> 1。S[middle] = 30, xS[middle], 令low = middle+1,在序列的后半部分查找,搜索范围缩小到子问题S[midde] +1…x = S[middle] = 17,查找成功,算法结束。

2024-05-16 03:26:41 1056

原创 最全【详解】手撕 一维、二维、三维差分数组原理(3),2024年最新最新大厂大数据开发社招面试经验汇总

在临界值以前,战舰的生命肯定是大于 0 的,在临界值后,若战舰出现了负值,则之后一直都会是负值。查询空间内每个元素是否小于0,但是计算空间上的每个元素的值是 O(n) 的,对于m次攻击,复杂度仍然是 O(nm)。S(t)=a[t]+n=1∑∞​(−1)(n−1)S([t−1]的组合形式),n 为−1的个数。O(nt2t)**,即随着维度的升高,时间复杂度增大的很快,不过是可以优化到 **O。输出第一个爆炸的战舰是在哪一轮攻击后爆炸的。的前缀和,即原点坐标 (1,1)和 坐标(i,j)围成的矩阵面积。

2024-05-16 03:26:08 769

原创 最全【补充】助力工业物联网,工业大数据之AirFlow安装(1),小红书大数据开发面试题目

升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

2024-05-16 03:25:34 418

原创 最全【算法leetcode】面试题 04(2),2024年最新通用流行框架大全

【代码】最全【算法leetcode】面试题 04(2),2024年最新通用流行框架大全。

2024-05-16 03:25:02 326

原创 大数据最新《大型数据库技术》MySQL的进阶开发技巧,2024年最新值得一读

1.5 创建一个存储过程,名称自定,通过输入商品ID的最小值,最大值,将表中商品ID处于(最小值,最大值)范围内,且为偶数的记录删除,包括最小值与最大值本身。若事务T对数据对象A加上S锁,则事务T可以读A但不能修改A,其他事务只能再对A加S锁,而不能加X锁,直到T释放A上的S 锁。若事务T对数据对象A加上X锁,事务T可以读A也可以修改A,其他事务不能再对A加任何锁,直到T释放A上的锁。定义一个触发器,实现如下功能,在往1.2的表中插入记录的时候,将记录同时也插入到一张新的表sale_backup.

2024-05-15 18:38:35 310

原创 大数据最新《Redis实战篇》五、分布式锁-redission(2),2024年最新大数据开发开发入门基础教程

锁的自动释放时间。* @Description 测试Redisson的分布式锁的可重入性质。– 代码走到这里,说明获取锁的不是自己,获取锁失败。– 如果已经不是自己,则直接返回。– 锁已经存在,判断threadId是否是自己。else – 等于0说明可以释放锁,直接删除。– 大于0说明不能释放锁,重置有效期然后返回。– 存在, 获取锁,重入次数+1。– 判断当前锁是否还是被自己持有。– 判断是否重入次数是否已经为0。– 是自己的锁,则重入次数-1。

2024-05-15 18:38:03 398

原创 大数据最新《Redis实战篇》五、分布式锁-redission(1),从入门到真香

重入问题:重入问题是指 获得锁的线程可以再次进入到相同的锁的代码块中,可重入锁的意义在于防止死锁,比如HashTable这样的代码中,他的方法都是使用synchronized修饰的,假如他在一个方法内,调用另一个方法,那么此时如果是不可重入的,不就死锁了吗?所以可重入锁他的主要意义是防止死锁,我们的synchronized和Lock锁都是可重入的。不可重试:是指目前的分布式只能尝试一次,我们认为合理的情况是:当线程在获得锁失败后,他应该能再次尝试获得锁。

2024-05-15 18:37:30 321

原创 大数据最新“新基建”趋势下,大数据如何成为发展支点,2024年最新大数据开发面试题及答案

======关于数据来源,普遍认为互联网及物联网是产生并承载大数据的基地。互联网公司是天生的大数据公司,在搜索、社交、媒体、交易等各自核心业务领域,积累并持续产生海量数据。物联网设备每时每刻都在采集数据,设备数量和数据量都与日俱增。这两类数据资源作为大数据金矿,正在不断产生各类应用。国外关于大数据的成功经验介绍,大多是这类数据资源应用的经典案例。还有一些企业,在业务中也积累了许多数据,如房地产交易、大宗商品价格、特定群体消费信息等。

2024-05-15 18:36:57 466

原创 公司来了个京东T6,只用两个工具类教会了我如何进行数据对比_fieldcompare(1)

/ value原值 originValue基准值。* @Description 数据比对线程。* 获取当前类以及其父类所有的属性列表。* @Description 内容对比。

2024-05-15 07:34:01 447

原创 全站最简单 “数据滚动可视化大屏” 【JS基础拿来即用】_数据滚动大屏源码

另外,本数据可视化大屏页面可以搭配后端代码使用进行数据的实时添加可视化展示的作用,如果有需要可以将本案例中数据的表格的td数据信息换为用户个人信息的主页链接,这样光标移上暂停滚动后可以对用户主页信息进行查看,另外如果整个代码直接搬用复制到各位大佬的网站页面,可能会出现一些不可预估的错位,因为本案例是设置的居中屏幕的。

2024-05-15 07:33:25 667

原创 全站最简单 “数据滚动可视化大屏” 【JS基础拿来即用】_数据滚动大屏源码(2)

本案例实现也非常简单,既然是滚动效果,必然是少不了 setInterval 定时器,由于增加了光标放上去滚动暂停以及光标移开滚动继续,所以需要两次定时器的设置,移开之后需要再是指一次定时器,这里我们为了方便就可以将定时器单独封装成一个函数,在定时器内调用该函数即可,另外,我们还需要在鼠标移上之后清除一次所有正在工作的定时器,这是为了解决速度叠加问题,如果不清除,那么每次移上都会加速一次。最后一个注意点是:光标移开的定时器命名不能使用局部变量,否则清除定时器会失效。

2024-05-15 07:32:49 316

原创 全站最简单 “数据滚动可视化大屏” 【JS基础拿来即用】_数据滚动大屏源码(1)

本案例功能为数据自动滚动,可搭配后端进行数据实时的可视化添加,光标移动到屏幕处可以暂停滚动,移开继续滚动另外,本数据可视化大屏页面可以搭配后端代码使用进行数据的实时添加可视化展示的作用,如果有需要可以将本案例中数据的表格的td数据信息换为用户个人信息的主页链接,这样光标移上暂停滚动后可以对用户主页信息进行查看,另外如果整个代码直接搬用复制到各位大佬的网站页面,可能会出现一些不可预估的错位,因为本案例是设置的居中屏幕的。

2024-05-15 07:32:12 469

原创 【Hadoop】(五)MapReduce 如何解决数据倾斜问题_mapreduce 数据倾斜(2)

简化了的 shuffle 图就是这样。这样就能清楚看到,数据经过 map后,由于不同key 的数据量分布不均,在shuffle 阶段中通过 partition 将相同的 key 的数据打上发往同一个 reducer 的标记,然后开始 spill (溢写)写入磁盘,最后merge成最终map阶段输出文件。如此一来 80G 的 aaa 将发往同一个 reducer ,由此就可以知道 reduce 最后 1% 的工作在等什么了。

2024-05-14 22:52:19 613

原创 【Hadoop】(五)MapReduce 如何解决数据倾斜问题_mapreduce 数据倾斜(1)

如此一来 80G 的 aaa 将发往同一个 reducer ,由此就可以知道 reduce 最后 1% 的工作在等什么了。

2024-05-14 22:51:43 692

原创 【Hadoop】(三)资源管理器 YARN 和分布式计算框架 MapReduce_云祁框架v4

作为参数传递,节省开发成本,提高程序自由度Writable序列化:使能分布式程序数据交互Comparable比较器:实现具体排序(字典序,数值序等)

2024-05-14 22:51:06 627

原创 【Hadoop】(三)资源管理器 YARN 和分布式计算框架 MapReduce_云祁框架v4(1)

MapReduce框架由一个主资源管理器,一个集群节点一个工作器NodeManager和每个应用程序MRAppMaster组成(请参阅YARN体系结构指南)。应用程序通过适当的接口和/或抽象类的实现来指定输入/输出位置和供应图,并减少功能。这些以及其他作业参数构成作业配置。然后,Hadoop 作业客户端将作业(jar /可执行文件等)和配置提交给ResourceManager,然后由ResourceManager负责将软件/配置分发给工作人员,安排任务并对其进行监视,为工作提供状态和诊断信息,客户。

2024-05-14 22:50:29 569

原创 2024年闲谈数据结构与算法基础(3),满满的干货

浅显理解,算法是解决问题的思路/步骤,像是做菜的菜谱。和菜谱最大的区别是,算法是用数学方式来描述的,十分明确。

2024-05-14 13:32:49 202

原创 2024年这个数据仓库,竟然把淘宝和京东干翻了。。,2024年最新大数据开发高分面试指南

数据仓库还是企业的核心工作负载,或许,这也解释了为什么其他观察者认为他们必须重新定义数据仓库的概念,让它能够在云计算时代继续存在下去。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!大部分人的回答都是偏技术层面的,通常会说出一个比较完整的数据分层模型,但仅仅分层清晰就足够了吗?面向希望从事大数据开发工作、Hadoop开发工程师、Spark开发工程师、Flink开发工程师、大数据架构师等岗位的同学。

2024-05-14 13:32:14 292

原创 2024年运营商大数据实时获客,2024年最新腾讯大数据开发面试题社招

如果你的产品没有优势,价格没有优势,业务员没有沟通能力,只能靠着服务去赢得客户,然而后期的服务在前期的沟通当中无法体现,也就导致你的公司没有任何的竞争力,那么这个时候你就要考虑去挖掘同行的客户了,我这边提供的方法是抓取同行的网站,网址,APP,400,固话,或者小程序,谁访问了这个网址或者谁给这个400打了电话,我们将他定义为有意向的客户,抓到数据之后进行电销和他们沟通。最后要提醒各位读者,每一种行业,都有相适应的获客方式,选择适合自己的方式要比选择昂贵的获客方式更有效!同行客户如何挖掘的方式方法。

2024-05-14 13:31:38 325

原创 2024年跟着罗某人认识spark和scala带你上大分(1),零基础学习大数据开发

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;

2024-05-14 13:31:02 1065

原创 2024年最全Python大数据-对淘宝用户的行为数据分析,分享一点面试小经验

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新需要这份系统化资料的朋友,可以戳这里获取1、不同时间下PV、UV的流量变化情况1)每天的PV、UV变化情况import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport o

2024-05-14 04:54:46 959

原创 2024年最全Python基础编程入门实例:恺撒密码_凯撒密码python编程代码(1),2024最新大数据开发笔试题及答案

原文:A B C D E F G H I J K L M N O P Q R S T U V W X Y Z密文:D E F G H I J K L M N O P Q R S T U V W X Y Z A B C。

2024-05-14 04:54:10 498

原创 2024年最全Python入门到进阶好书推荐看这篇就够了_荐书python变成 从入门,2024年最新系统盘点大数据开发开发者必须掌握的知识点

Head First 系列的书籍一直饱受赞誉,这本也不例外,本书有很多助于理解的图片,让你的Python学习,不会非常的枯燥。也是我比较推荐的书籍之一。你可以查看我分享的PDF版本来查看到底哪一本入门书更加让你满意。

2024-05-14 04:53:34 814

原创 2024年最全PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置(1),一次违反常规的大数据开发大厂面试经历

时至如今Pandas仍然是十分火热的基于Python的数据分析工具,与numpy、matplotlib称为数据分析三大巨头,是学习Python数据分析的必经之路。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使Python成为强大而高效的数据分析环境的重要因素之一。因此我们做分布式数据分析也同样离不开Pandas的支持。

2024-05-14 04:52:57 1103

原创 2024年大数据最全大数据基础习题(1),2024年最新大数据开发架构组件Room功能详解

P133 A.C B.C++ C.java D.VB 2.以下哪项不是MapReduce体系结构的主要组成部分(D) P课件9 A.Client B.JobTracker C.TaskTracker D.TaskScheduler 3.每个Map任务分配一个缓存,MapReduce默认缓存是(A) P137 A.100MB B.80MB C.120MB D.200MB 4.以下哪项不属于步骤不包含在溢写过程中(B) P137 A.分区 B.归并 C.排序 D.合并 5.Reduce从©读取数据。

2024-05-13 20:06:27 862

原创 2024年大数据最全大数据可视乎python002(1),差点挂在第四面

plt.xlabel(‘产品名称’)plt.ylabel(‘产量’)plt.title(‘面积’)y5=df[‘2018年’]y4=df[‘2017年’]y3=df[‘2016年’]y2=df[‘2015年’]y1=df[‘2014年’]x=df[‘指标’]

2024-05-13 20:05:51 264

原创 2024年大数据最全大数据分析-零基础学Tableau+超详细讲解+示例练习(六),大数据开发面试题汇总

混合地图首先在正常地图绘制的基础上拖拽形成两个维度,选择双轴,通过控制新生成的大小和颜色实现多个维度的混合地图生成!样式可以控制当前地图的背景颜色,冲蚀则是控制其他不相关的透明度,100%时只保留当前地图,最终效果图。源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**在排序中调整位置,修改完成。点击地图 选择地图层。

2024-05-13 20:05:15 179

原创 2024年大数据最全大数据分析-零基础学Tableau+超详细讲解+示例练习(六)(2),多线程高并发

混合地图首先在正常地图绘制的基础上拖拽形成两个维度,选择双轴,通过控制新生成的大小和颜色实现多个维度的混合地图生成!样式可以控制当前地图的背景颜色,冲蚀则是控制其他不相关的透明度,100%时只保留当前地图,最终效果图。源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**在排序中调整位置,修改完成。

2024-05-13 20:04:39 250

原创 2024年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…_behavior2024-01-01(4)

org.apache.hadoop.hive.ql.udf.generic.GenericUDF ,重载initialize()、evaluate()和 getDisplayString()方法;该类需要实现通过 IP 从/root/eduhq/data/area.json文件中随机获取“省份”和“城市”信息,完成数据的分类标注。( 1 ) 将包“ com.hive.udf ”导出为名为 hive-udf- behavior-1.0.0.jar 的 JAR 文件, 并 保 存在 本地 的。

2024-05-13 14:32:34 293

原创 2024年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…_behavior2024-01-01(3)

org.apache.hadoop.hive.ql.udf.generic.GenericUDF ,重载initialize()、evaluate()和 getDisplayString()方法;( 1 ) 将包“ com.hive.udf ”导出为名为 hive-udf- behavior-1.0.0.jar 的 JAR 文件, 并 保 存在 本地 的。(2)将打包文件 hive-udf-behavior-1.0.0.jar 上传到HDFS 的/hive/udf_jars 目录下;

2024-05-13 14:31:58 320

原创 2024年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…_behavior2024-01-01(2)

返回所有以“http://”开头的URL。如果返回的行数大于0,则说明URL协议被统一为“http”。通过ip获取省份,例如:select get_city_by_ip(ip);,涵盖了95%以上大数据知识点,真正体系化!

2024-05-13 14:31:22 447

原创 2024年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…_behavior2024-01-01(1)

(2)目录创建完成,使用HDFS Shell指令,将本地/root/eduhq/data/app_log/behavior目录下的所有用户行为日志文件采集至HDFS的/behavior/origin_log目录下;(3)采集完成,在本机打开浏览器,访问http://本机主机名:9870或http://本机IP地址:9870进入HDFS WebUI界面,查看是否成功将数据采集到HDFS上。(2)对数据进行清洗,专注处理名为"behavior2023- 01-01.csv"的文件中的"time"列。

2024-05-13 14:30:45 549

原创 最新大数据冷热分离方案_如何对宽表数据进行冷热处理(2),真是经典中的经典

​ 这个字段可以是时间维度,比如订单的****下单时间、创建时间****,可以把3或6个月前的订单数据当作冷数据,3或6个月内的订单数据当作热数据。当然,字段也可以是状态维度,比如根据订单状态字段来区分,将已完结的订单当作冷数据,未完结的订单当作热数据。​ 在功能设计的新增历史数据查询界面,历史数据查询界面和原来功能查询显示界面一样,查询调用接口的新增字段标示区分是历史数据查询界面还是热数据查询界面的方式处理。2. 不会同时存在读取冷、热数据的需求。3.3.1、如何判断一个数据是冷数据还是热数据?

2024-05-12 17:09:48 356

原创 最新大数据入门-大数据是什么(4),2024年最新离开小厂进大厂的第一周

随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生的数据类型无以计数。大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。其实大数据可以理解为**大的数据。**什么叫大的数据,首先数据量大,种类多,增长快,价值密度低,需要分析处理得出有价值的数据。例如微信,淘宝等网站的数据,全球几十亿人的数据都要处理。

2024-05-12 17:09:12 252

原创 最新大数据入门-大数据技术概述(二),阿里内部大数据开发笔记火爆IT圈

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。Apache Hadoop YARN是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。一致性、可靠性、实时性、等待无关、原子性、顺序性。

2024-05-12 17:08:36 842

原创 最新大数据入门(五)-分布式计算框架MapReduce(1),程序员如何技术划水

你可能已经熟悉了默认的OutputFormat,也就是TextOutputFormat,它是一种以行分隔,包含制表符界定的键值对的文本文件格式。尽管如此,对多数类型的数据而言,如再常见不过的数字,文本序列化会浪费一些空间,由此带来的结果是运行时间更长且资源消耗更多。为了避免文本文件的弊端,Hadoop提供了SequenceFileOutputformat,它将对象表示成二进制形式而不再是文本文件,并将结果进行压缩。4 MapReduce 1.x 架构。5 MapReduce 2.x 架构。

2024-05-12 17:08:00 393

原创 最全【数据结构与算法】栈的深入学习(上)_栈序列(2),2024年最新大数据开发零基础入门

问题分析:类似于这种栈的选择题,如果元素较少,我们直接心算就可以,元素较多的话我们可以画图来解决,本题c选项,先出的是3,那么就是1,2,3进栈,然后3出栈,第二个出栈选项给的是1,我们知道1是第一个进栈的,那么想出1,2必须先出,所以C选项错误!2.一个栈的初始状态为空。现将元素1、2、3、4、5、A、B、C、D、E依次入栈,然后再依次出栈,则元素出栈的顺序是( B)。问题分析:简单明了,栈的结构先进后出,直接选B。

2024-05-12 08:37:58 409

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除