普通网友-CSDN博客

原创第六篇【传奇开心果系列】Python的自动化办公库技术点案例示例：大学生数据全方位分析挖掘经典案例

sns.lineplot(data=monthly_attendance, x=‘月份’, y=‘迟到次数’, hue=‘年份’, marker=‘o’, palette=‘Set1’)sns.lineplot(data=monthly_attendance, x=‘月份’, y=‘早退次数’, hue=‘年份’, marker=‘o’, palette=‘Set2’)

2024-05-16 11:54:10 664

原创第六篇【传奇开心果系列】Python的自动化办公库技术点案例示例：大学生数据全方位分析挖掘经典案例(2)

这段代码展示了如何利用 Pandas 对大学生住宿数据进行分析，包括统计不同类型住宿的选择情况、绘制住宿类型选择饼图、分析住宿费用分布并绘制直方图，以及计算不同类型住宿的平均费用。这些分析有助于学校了解学生的住宿需求和选择偏好，为住宿管理和规划提供参考依据。sns.lineplot(data=monthly_attendance, x=‘月份’, y=‘迟到次数’, hue=‘年份’, marker=‘o’, palette=‘Set1’)

2024-05-16 11:53:37 550

原创第二届数据安全大赛暨首届“数信杯”数据安全大赛数据安全积分争夺赛-东区预赛部分WP

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取m = (f*c) % p % g * inverse_mod(f, g) % gprint(long_to_bytes(m))from Crypto.Util.number import long_to_bytes

2024-05-16 11:52:30 576

原创最全大数据入门之 ssh 免密码登录，头条面试题

语法：ssh-copy-id -i ~/.ssh/id_rsa.pub root@remote（远程ip）每台机器发送自己的公钥给其他机器，按回车键输入root用户密码即可。公钥文件：/root/.ssh/id_rsa.pub。直接三次回车，Linux会生成两个密钥：公钥和私钥。注意：建议逐个主机执行，多台机器同时执行容易出错。私钥文件：/root/.ssh/id_rsa。

2024-05-16 04:06:05 1065

原创最全大数据入门-大数据是什么(2)，2024年最新BAT面试文档

大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。**什么叫大的数据，首先数据量大，种类多，增长快，价值密度低，需要分析处理得出有价值的数据。数据集合的规模不断扩大，已经从 GB 级增加到 TB 级再增加到 PB 级，近年来，数据量甚至开始以 EB 和 ZB 来计数。例如微信，淘宝等网站的数据，全球几十亿人的数据都要处理。

2024-05-16 04:05:32 484

原创最全大数据入门-五分钟读懂Hive，2024年最新一个月成功收割腾讯、百度、美团、网易offer

大数据入门系列文章=========")")一、概念====Hive是基于Hadoop的一个数据仓库工具，用来进行数据抽取，转化，加载，这是一种可以存储，查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射成一张表，并提供SQL查询功能，能将SQL语句转化成为MapReduce来执行。Hive的优点是学习成本低，可以通过类SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce任务。

2024-05-16 04:05:00 679

原创最全大数据之Hadoop3(7)，面试大数据开发

1）各个模块分开启动/停止（配置ssh是前提）常用1.整体启动/停止HDFS2.整体启动/停止YARN2）各个服务组件逐一启动/停止1.分别启动/停止HDFS组件2.启动/停止YARN。

2024-05-16 04:04:27 1042

原创大数据最新【游戏引擎Easy2D实战】选择关卡场景示例_easy2d api，2024年最新电子版已问世

/ level 为 1 时，禁用左选按钮。// level 为 1 时，禁用右选按钮。// 创建一个空场景。

2024-05-15 19:18:03 320

原创大数据最新【深度学习】：《PyTorch入门到项目实战(2)，2024年最新推荐一个GitHub项目

n×nn\times nn×n,核形状为f×ff\times ff×f，那么经过卷积核作用后，得到的输出形状为n−f1×n−f1可以看出，通常情况下输出特征会由于卷积核的作用而减小。而深度神经网络中，由于卷积核的作用，会导致我们的输出过早的变的很小，导致我们无法构建深层的神经网络。本章介绍另外两个影响输出形状的方法，扩充(padding)和步幅(stride)。

2024-05-15 19:17:30 321

原创大数据最新【深度学习】：《PyTorch入门到项目实战(1)，一位大数据开发大牛的BAT面试心得与经验总结

n\times nn×n,核形状为f×ff\times ff×f，那么经过卷积核作用后，得到的输出形状为n−f1×n−f1可以看出，通常情况下输出特征会由于卷积核的作用而减小。而深度神经网络中，由于卷积核的作用，会导致我们的输出过早的变的很小，导致我们无法构建深层的神经网络。本章介绍另外两个影响输出形状的方法，扩充(padding)和步幅(stride)。

2024-05-15 19:16:57 344

原创大数据最新【毕业季】科班大二拿到满意offer的成长之路_大二拿offer，2024年最新350道大数据开发面试真题分享

本人是2024届毕业的一名大二学生，对于个人以后的人生规划更偏向于就业，目前也是通过自己的努力拿到了一个某央企的offer。

2024-05-15 19:16:24 345

原创助力工业物联网，工业大数据之服务域：node_exporter插件【三十七】_node_expoter 电源(1)

项目所需工具:链接：https://pan.baidu.com/s/1sIa8nninf2Fz6YqE3vUpqQ?pwd=5wr3提取码：5wr3–来自百度网盘超级会员V4的分享。

2024-05-15 08:17:38 1096

原创助力工业物联网，工业大数据之服务域：AirFlow的架构组件【三十二】_airflow大数据组件

Task类型：http://airflow.apache.org/docs/apache-airflow/stable/concepts/operators.html常用。

2024-05-15 08:17:02 588

原创助力工业物联网，工业大数据之服务域：AirFlow的架构组件【三十二】_airflow大数据组件(4)

Task类型：http://airflow.apache.org/docs/apache-airflow/stable/concepts/operators.html常用。

2024-05-15 08:16:26 891

原创助力工业物联网，工业大数据之服务域：AirFlow的架构组件【三十二】_airflow大数据组件(3)

合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

2024-05-15 08:15:49 345

原创【Java面试宝典】常用类中的方法重写 equals方法与逻辑运算符==的区别_java 类中重写==方法(1)

常用类是所有类的父类一个类如果如果没有显式声明父类，则一定直接继承自ObjectObject类中存放着所有类都必须拥有的内容，子类可以根据需要对继承的方法进行重写。

2024-05-14 23:36:15 580

原创【Java面试】并发编程实战（线程控制操作详解）_java并发编程实战

①继承 Thread 类，重写 run 方法。@Override②实现 Runnable 接口，实现 run 方法。推荐使用，避免了单继承的局限性。@Override通过匿名内部类方式，我们可以实现同时定义和启动线程的简洁写法。}).start();

2024-05-14 23:35:39 808

原创【Java面试】并发编程实战（线程控制操作详解）_java并发编程实战(2)

①继承 Thread 类，重写 run 方法。@Override②实现 Runnable 接口，实现 run 方法。推荐使用，避免了单继承的局限性。@Override通过匿名内部类方式，我们可以实现同时定义和启动线程的简洁写法。}).start();

2024-05-14 23:35:03 643

原创【Java面试】并发编程实战（线程控制操作详解）_java并发编程实战(1)

①继承 Thread 类，重写 run 方法。@Override②实现 Runnable 接口，实现 run 方法。推荐使用，避免了单继承的局限性。@Override通过匿名内部类方式，我们可以实现同时定义和启动线程的简洁写法。}).start();

2024-05-14 23:34:25 632

原创 Anaconda与Jupyter Notebook入门级详细使用教程_anaconda jupyter notebook(2)

其中针对Jupyter Notebook官方描述如下：Jupyter Notebook 是一个基于 Web 的交互式计算平台。该笔记本结合了实时代码、方程式、叙述性文本、可视化、交互式仪表板和其他媒体。简单讲，Jupyter Notebook(此前被称为IPython notebook)是一个基于网页的交互式笔记本，支持运行多种编程语言。本质是一个Web应用程序，便于创建和共享文学化程序文档, 支持实时代码，数学方程，可视化和markdown。

2024-05-14 14:16:32 661

原创 Anaconda与Jupyter Notebook入门级详细使用教程_anaconda jupyter notebook(1)

其中针对Jupyter Notebook官方描述如下：Jupyter Notebook 是一个基于 Web 的交互式计算平台。该笔记本结合了实时代码、方程式、叙述性文本、可视化、交互式仪表板和其他媒体。简单讲，Jupyter Notebook(此前被称为IPython notebook)是一个基于网页的交互式笔记本，支持运行多种编程语言。本质是一个Web应用程序，便于创建和共享文学化程序文档, 支持实时代码，数学方程，可视化和markdown。

2024-05-14 14:15:56 2063

原创 AI遮天传 ML-集成学习_two heads are better than one — a very brief intro

加权多数算法相同数据集，不同学习算法产生多个模型，加权融合Bagging一个数据集，一个弱分类器生成多组训练样本来训练多个模型，然后集成。

2024-05-14 14:15:21 814

原创 AI遮天传 ML-集成学习_two heads are better than one — a very brief intro(1)

加权多数算法相同数据集，不同学习算法产生多个模型，加权融合Bagging一个数据集，一个弱分类器生成多组训练样本来训练多个模型，然后集成。

2024-05-14 14:14:44 909

原创 2024年最全【Kafka面试演练】那Kafka消费者手动提交、自动提交有什么区别？，BAT大厂面试题整理

面试官：不用慌尽管说，错了也没关系😊。。。❤️。

2024-05-14 05:38:26 320

原创 2024年最全【jvm系列-04】精通运行时数据区共享区域---堆_java 数据共享区，2024年大数据开发常见面试题目

从内存模型角度来看，对Eden区域继续进行划分，JVM为每个线程分配了一个私有的缓冲区，存在Eden空间多线程在分配内存时，使用TLAB可以避免一系列的线程安全问题，并提升一定的吞吐量既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取。

2024-05-14 05:37:50 756

原创 2024年最全【jQuery超快速入门教程】上篇_jquery快速教程(1)，2024最新阿里大数据开发面试流程

jQuery下载地址jQuery中文文档jQuery插件库。

2024-05-14 05:37:14 871

原创 2024年最全【Java集合类】之 HashSet以及底层逻辑分析_hashset实现逻辑，2024年最新持续更新中

首先先来研究一下帮助文档HashSet 基于 HashMap 来实现的，是一个不允许有重复元素的集合。HashSet 允许有 null 值。HashSet 是无序的，即不会记录插入的顺序。HashSet 不是线程安全的，如果多个线程尝试同时修改 HashSet，则最终结果是不确定的。您必须在多线程访问时显式同步对 HashSet 的并发访问。HashSet 实现了 Set 接口。此类实现 Set 接口，由哈希表（实际上是一个 HashMap 实例）支持。它不保证 set 的迭代顺序；

2024-05-14 05:36:38 943

原创 2024年大数据最全数据仓库解决方案——ODPS组件化改造之路，微信小程序的事件处理

***▐ 组件的如上，在实际业务实践中，有大量的SQL代码过程很类似，过程中输入的表和输出的表的结构是一样的或者是类型兼容的，仅仅是名字不同而已。这个时候组件的开发者就可以将这样的一个 SQL 过程抽象成为一个SQL组件节点，将里面可变的输入表抽象成输入参数，把里面可变的输出表抽象成输出参数，就可以实现 SQL 代码的复用。

2024-05-13 20:50:02 966

原创 2024年大数据最全数据仓库的基本架构是什么样的？(1)，2024年最新撸了郭霖大神写的Framework源码笔记

对于源数据而言，其数据组织形式是多样的，像点击流的数据格式是未经优化的，前台数据库的数据是基于OLTP操作组织优化的，这些可能都不适合分析，而整理成面向主题的组织形式才是真正地利于分析的，比如将点击流日志整理成页面（Page）、访问（Visit或Session）、用户（Visitor）三个主题，这样可以明显提升分析的效率。细节数据是必需的，数据仓库的分析需求会时刻变化，而有了细节数据就可以做到以不变应万变，但如果我们只存储根据某些需求搭建起来的数据模型，那么显然对于频繁变动的需求会手足无措；

2024-05-13 20:49:26 921

原创 2024年大数据最全数据仓库实战教程_数据仓库经典教程，2024年最新大数据开发面试题2024笔试

数据仓库已经是企业的数据竞争的核心了，学好数据仓库对提高自己和找到一份好的工作都至关重要，但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习的大数据技术其实最终的价值都体现在数据服务上，数仓是数据服务的基石，如果说业界以前还有离线和实时之分的话，那么现在实时数仓的提出与落地，未来数仓将是数据战争的最激烈的战场，一切大数据技术都将为数仓提供服务，也都将在数仓这一环节进行收口。读者交流群已经开通了，有需要的可以私信进入读者交流群。

2024-05-13 20:48:50 346

原创 2024年大数据最全数据仓库——聚集(6)，史上超级详细

聚集导航还能够提供其他额外的好处。对于某个给定的查询，在选择星型模式时，要获得最理想的性能，就需要考虑采用在事实表中具有行数最少并且能够回答查询的聚集星型模式。聚集星型模式中事实和维度属性与基本星型模型中相关的事实和维度属性一致，对利用聚集的查询的重写工作包含替换表名和关键字列。围绕性能的原则开展设计工作，从原始星型模式构建聚集模式是有意义的，如果发生类型1变化，将导致增量式维度聚集更加困难。聚集导航是通用的来描述选择基本星型模式还是一个或多个聚集的术语，完成这种服务的软件产品或功能通常被称为聚集导航。

2024-05-13 20:48:14 982

原创 2024年大数据最全0301taildir-source报错-flume-大数据(1)，2024年最新快手大数据开发面试经验

conf文件如下。#配置channel。

2024-05-13 15:16:10 762

原创 2024年大数据最全01-Flink安装部署及入门案例（仅供学习）(1)，大数据开发面试基础

2）、启动ZooKeeper，在node1上启动3）、启动HDFS，在node1上启动，如果没有关闭，不用重启4）、停止集群，在node1操作，进行HA高可用配置5）、修改flink-conf.yaml，在node1操作6）、修改masters，在node1操作7）、分发到集群其他机器，在node1操作8）、修改node2上的flink-conf.yaml9）、重新启动Flink集群。

2024-05-13 15:15:34 1146

原创 2024年大数据最全(5)，2024年最新BAT面试文档

这里我用Test作为控制器名称。

2024-05-13 15:14:57 763

原创 2024年大数据最全#新学期，新的生活#，2024年最新大数据开发开发者必看避坑指南

近来读的书越来越少了，但总算共情的能力还是没丢，每次读到一本好书，依旧会很快沉迷在书中的世界，体会作者所表达的情感。目前形式的话大概只能在省内转转了，仙岛蓬莱、泉城济南、孔都曲阜、东岳泰山等比较有名的大抵都去过了，接下来若有闲暇便去寻找一些令人惊艳的平凡风景吧，喜欢在路上的感觉，触碰历史、感悟风景，享受自己大抵就是最浪漫的事情吧。最好的年纪，总是想要去追寻一下爱情的，遇到的人，得到的感情，尽心尽力就好，结局怎样都不算遗憾。可以不甘，或者失落，但总不要怀疑自己的真诚和善良，爱情不是必需品，体验过就好。

2024-05-13 15:14:21 406

原创最新搭建Hadoop3，大数据开发开发技术总结

ISO映像选择下载的CentOS-Stream-9-xxxxxxx.iso。

2024-05-12 17:53:22 943

原创最新搭建Hadoop3(1)，2024年最新15个经典面试问题及回答思路

接下来，虚拟机hadoop1作为集群环境的主节点实现SSH免密登录。更多参数请参考官网：https://hadoop.apache.org/docs/r3.3.6/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml。更多参数请参考官网：https://hadoop.apache.org/docs/r3.3.6/hadoop-yarn/hadoop-yarn-common/yarn-default.xml。

2024-05-12 17:52:46 691

原创最新技术架构—各类技术选型与区别答疑—【区别-缺点与不足】—(1)，2024年最新2024百度大数据开发岗面试真题收录解析

采集层主要可以使用两种技术。：Flume 是管道流方式，提供了很多的默认实现（扇入流、扇出流等），让用户通过参数部署，也可扩展API.：Kafka是一个可持久化的磁盘顺序存储（磁盘的顺序读写）的分布式的消息队列。你可以有许多生产者和很多的消费者共享多个主题Topics。，兼顾了消费者的消费能力，消费可以根据自身消费能力消费数据，传统的消息队列系统能够很好的处理实时或者近似实时的应用，但未处理的数据通常不会写到磁盘上kafka 可持久化数据使其够很好地进行离线和在线处理。

2024-05-12 17:52:09 919

原创最新手把手教你用UNet做医学图像分割系统_unet医学图像分割，2024年大数据开发者未来的出路在哪里

数据处理部分，医学影像这块我们一般使用公开的数据集，如果没有合适的数据集大家也可以选择自己进行标注，分割相对于检测而言标注起来比较麻烦，所以能找到公开的数据集最好使用公开的数据集，这里是本期我们要用到的数据集。以下面的皮肤病数据集为例，其中左侧是原始图片，右侧是标注之后的标签，因为标签有两种像素值，背景为0，皮肤病区域为1，所以我们肉眼上看到的标签图片是全黑，但是实际上这些标签文件中的值是不一样的。为图片以及LabelMe产出的json文件所在文件夹的目录，同时也是转换后的标注集所在文件夹的目录。

2024-05-12 17:51:33 1621

原创最全大数据入门-大数据技术概述(一)(2)，2024年最新腾讯大数据开发开发岗

HBase是一个开源的非关系型分布式数据库，它参考了谷歌的BigTable建模，实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，为 Hadoop 提供类似于BigTable 规模的服务。Apache Kudu是由Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

2024-05-12 09:21:29 891

空空如也

空空如也