白白的wj-CSDN博客

原创 2024.5.12 Pandas 基础语法day02

print(data.dropna(axis=0,how='any',inplace=False))#其实使用inplace是否等于True或者False都只是想试试，没想到可以。data = pd.read_csv('Nowcoder.csv',sep=',',dtype='object')#现在有点理解什么时候使用dtype，一般出现年份的时候。#describe()作用是计算出各个列的描述行统计量如平均数，方差，最大值，最小值，四分位数，返回类型是。1或'columns'，表示按列删除。

2024-05-12 18:43:20 539 1

原创 2024.4.29 Pandas day01 基础语法

当你输出 DataFrame 时，所有列都会被显示，而不是被截断。df = pd.read.csv(''文件路径“）：这是利用pandas数据库读取CSV文件的方法，如果读取EXCEL文件或者其他文件，csv文件换成其他文件的格式。如果不指定数据类型（即第一个例子），pandas会尝试推断每个列的数据类型，这可能会导致一些列被错误地解释为不同的类型，从而可能导致错误。最后，使用布尔型 Series 作为索引，将 DataFrame 中所有 'Language' 列为 'Python' 的行提取出来，

2024-05-05 21:45:05 1035 1

原创 2024.4.19 Python爬虫复习day07 可视化3

此模块目的是为了重复去读取各个国家疫情数据# 导包# 定义一个函数用于处理和分析各个国家的疫情数据"""此函数用于处理和分析各个国家的疫情数据:param file_path: json文件路径:param rep_str: 要替换的json数据开头子串:return: 返回的是元组(日期数据,确诊数据)"""# 一.数据处理: 抽取转换加载# 1.抽取: 读取文件中json数据# 打印数据,测试是否成功读取,注意: 测试完可以注释或者删除。

2024-04-14 22:57:02 557

原创 2024.4.18 Python爬虫复习day06 可视化2

注意: 模块的名称不要以数字开头,不要是关键字,一般都是小写,可以字母数字下划线汉字组成(不建议)举例: 当前模块定义名称为:文件操作# 读取文件中的列表,并且把字符串类型转为列表本身# 写列表数据到文件中。

2024-04-14 22:35:05 473

原创 2024.4.16 Python爬虫复习day04

枚举函数自动生成从0开始的编号: enumerate() 枚举函数自动生成从0开始的编号: enumerate() 字符串切割方法: split() 字符串切割方法: split() 文件操作相关知识点。文件操作相关知识点。文件操作相关知识点。文件操作相关知识点。列表的定义和遍历。列表的定义和遍历。 if判断。 if判断。

2024-04-14 22:06:38 388

原创 2024.4.17 Python爬虫复习day05 可视化

【代码】2024.4.17 Python爬虫复习day05 可视化。

2024-04-14 22:06:17 447

原创 2024.4.15 Python爬虫复习day03

已知页面部分源码,其中包含了很多图片标签,要求扫描整个字符串,提取每个图片的路径。

2024-04-14 16:14:45 554

原创 2024.4.14 Python爬虫复习Day02

【代码】2024.4.14 爬虫复习Day02。

2024-04-13 23:54:34 306

原创 2024.4.13 Python 爬虫复习day01

用户名: --------欢迎来到我的页面--------密码:

2024-04-13 22:16:04 1196

原创 2024.4.6 Mybatis

Mybatis是一个java编写的轻量级（使用方式简单）的半自动（sql自己写，其他框架做）的ORM映射的Dao层框架。Dao（Database Access Object）：指java程序中专门用于访问数据库的对象：实现目的:解决繁琐的jdbc连接数据库的过程,只需要编写代码即可。

2024-04-06 12:38:20 941

原创 2024.4.6 SpringBoot

SpringBoot的作用是为了在使用Spring的应用进行开发时，简化配置。并且以最简单的方式来整合第三方的应用，例如Redis，Mybatis，SpringBoot等。SpringBoot顺应了可拔插的插件式开发思想，需要集成什么框架，只需要引入此框架提供的SpringBoot-starter即可。Mybatis是一个java编写的轻量级（使用方式简单）的半自动（sql自己写，其他框架做）的ORM映射的。以/开头的为绝对路径。在Http协议中，一共定义了9种请求方式，但是常用的是GET和POST。

2024-04-04 18:29:06 1025 1

原创 2024.3.11 - DAY05_JAVA高级

Maven是项目进行模型抽象, 充分运用的面向对象的思想, maven可以通过一小段描述信息来管理项目的构建, 报告和文档的软件项目管理工具。maven除了以程序构建能力为特色之外, 还提供高级项目管理工具。由于maven的缺省规则有较高的可重用性, 所以常常用两三行maven构建脚本就可以构建简单的项目。1) maven对项目的第三方构建(jar包)进行统一管理。向工程中加入jar包不要手工从其他地方拷贝, 通过maven定义jar包的坐标,自动从maven仓库中下载到工程中。

2024-03-11 23:02:29 1143

原创 2024.3.4 JAVA 复习

JDK：Java开发工具包(Java Development Kit), 包含开发工具和 JRE.常用的开发工具: javac, javaJRE：Java运行时环境(Java Runtime Environment), 包含运行Java程序时所需的核心类库和 JVM.核心类库: java.lang, java.util, java.ioJVM：Java虚拟机(Java Virtual Machine)作用: 用来保证Java程序跨平台性的, 但是JVM本身并不能跨平台.

2024-03-07 16:17:59 942

原创 2024.2.25 -ElasticSearch 进阶

Elasticsearch的倒排索引机制是通过将文档中出现的词汇与它们所在的文档ID关联起来，实现快速查找包含特定词汇的文档。下面是一个具体的例子来说明倒排索引的工作原理：假设我们有一个简单的文章集合，包含以下三篇文章：1. 文章A：标题为“新冠病毒疫情最新动态”，内容为“关于全球COVID-19疫情的最新进展报告”2. 文章B：标题为“春季流感预防措施”，内容为“如何在春季有效预防流感病毒传播”3. 文章C：标题为“疫苗接种的重要性”，内容为“讨论不同类型的疫苗及其在防疫中的关键作用”

2024-02-25 15:10:52 860

原创 2024.2.21- HCIA -bigdata模拟考试题

19、表引擎在ClickHouse中的作用十分关键，MergeTree系列引擎中，ReplacingMergeTree引擎适合于清除重复数据节省存储空间，但是不保证重复数据不出现，一般不建议使用。21、MRS集群创建早VPC的子网内，通过逻辑方式进行网络隔离，为用户的MRS集群提供安全，隔离的网络环境。6、MapReduce中，Reduce流程可能包含Copy、Sort、Merge、Reduce。13、MapReduce中Map阶段的Partition、Sort、Merge阶段是必须执行的。

2024-02-21 10:11:12 667

原创 2024.2.19 阿里云Flink

Spark底层是微批处理 , Flink底层则是实时流计算流式计算特点:数据是源源不断产生,两大问题,乱序和延迟Stateful:有状态。

2024-02-19 22:30:18 1111 1

原创 2024.2.11 大数据原理复习

首先，按照键进行排序，对于键相同的键值对，按照值进行排序。Copy阶段： ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据，这些数据默认会保存在内存的缓冲区中，当内存的缓冲区达到一定的阀值的时候，就会将数据写到磁盘之上。Spill阶段：当内存中的数据量达到一定的阀值(80%)的时候，就会将数据写入本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了combiner，还会将有相同分区号和key的数据进行排序。

2024-02-19 09:55:15 1015

原创 2024.2.10 HCIA - Big Data笔记

MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算,存储优势及大数据行业经验,为客户提供高性能,低成本,灵活易用的全栈大数据平台,为客户提供高性能、低成本、灵活易用的全栈大数据平台，轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件，并具备在后续根据业务需要进行定制开发的能力，帮助企业快速构建海量数据信息处理系统并通过对海量信息数据实时与非实时的分析挖掘，发现全新价值点和企业商机。除了数据以外，还记录数据的结构信息，即schema。

2024-02-15 15:34:37 1525

原创 2024.2.10 DMS（数据库管理系统）初体验

(Database Management System)是一种操纵和管理数据库的大型软件，用于建立、使用和维护。（Data Manipulation Language），供用户定义。（Data Definition Language）和。和用户用不同的方法在同时或不同时刻去建立，修改和询问。的模式结构与权限约束，实现对数据的追加、删除等操作。进行数据库的维护工作。进行导入,上传数据时的审批。

2024-02-10 17:31:30 1254

原创 2024.1.25 Object_basic 用户画像标签开发过程面向对象定义基类

标签开发的大部分过程都是重复的,因此我们使用面向对象的方法,将这些计算的过程提取成方法,并放到一个类中。7. 得到新标签,根据业务自定义开发Sparksql程序 ,也就是类方法中的抽象方法。新旧标签的合并和去重,并且增强代码健壮性,进行none值的判断。3.利用之前定义的parse_rule规则,提取出es上的数据。# 创建自定义Python函数，实现新旧标签的合并与去重。6. 方便调用的时候需要关联更多表的内容,新增方法。8. 读取ES中的旧标签数据。对es上的标签进行排序。4. 读取ES的业务数据。

2024-01-30 21:56:58 875

原创 2024.1.22 parse_rule.用户画像es数据使用rule规则读取

使用上面定义的规则,就能在下面一大串有规则的表格数据中提取出读取es上数据所需要的内容。

2024-01-30 21:11:51 667

原创 2024.1.20 用户画像标签开发,面向过程方法

1.创建SparkSession对象。# 理赔活跃度的四级标签ID。

2024-01-30 21:05:49 542

原创 2024.1.30 Spark SQL的高级用法

N preceding : 表示往前的N行, N的取值可以是具体的数据, 也可以是关键词(unbounded(边界))lead(字段, 往后第N行, 默认值): 可以实现将对应的字段的后N行的值和当前行放置到同一行中, 如果没有, 设置为默认值。lag(字段, 往前第N行, 默认值): 可以实现将对应的字段的前N行的值和当前行放置到同一行中, 如果没有, 设置为默认值。--last value取最后的值作为rn列的值,如果有排序字段,就会形成rn列的值和当前行一样,等于没用。

2024-01-30 20:41:14 1501 1

原创 2024.1.17 - Elastic Search

ELK是Elasticserarch、Logstash 、Kibana三个开源项目的首字母缩写Elasticsearch：主要是用于做全文检索，功能是数据的存储和查询。Logstash：主要是用于进行数据的传递采集工作，将数据搬运到另一个地方。Kibana：用于图表展示，类似BI。Elasticsearch是一个分布式的全文搜索引擎，具有高性能、可扩展性和数据可靠性等特点。它使用Lucene作为底层引擎，支持快速地存储、搜索和分析大量的数据。

2024-01-18 16:05:56 908

原创 2024.1.16 tfec

项目介绍-elasticSearch-业务数据源导入-离线指标开发-Flume实时采集-Nginx日志埋点数据-结构化流实时指标 - 制作报表数仓开发用户画像实时开发hive-spark数据挖掘结构化流-Flume-Kafka-Flink标签开发,挖掘类,统计类规则类,标签可视化平台,用户画像系统构建。

2024-01-16 17:06:24 983

原创 2024.1.15 Spark 阶段原理,八股,面试题

spark是一款大数据统一分析引擎,底层数据结构是RDD1- 轮询分发策略:kafka老版本的策略,当生产数据的时候,只有value但是没有key的时候,采用轮询优点: 可以保证每个分区拿到的数据基本是一样，因为是一个一个的轮询的分发缺点: 如果采用异步发送方式，意味着一批数据发送到broker端，由于是轮询策略，会将这一批数据拆分为多个小的批次，分别再写入到不同的分区里面去，写入进去以后，每个分区都会给予响应，会影响写入效率。

2024-01-15 16:29:34 1711

原创 2024.1.13 Kafka六大机制和Structured Streaming

六大机制:分区,副本,存储,查询,数据不丢失,负载均衡;

2024-01-13 18:03:53 1241

原创 2024.1.11 Kafka 消息队列,shell命令,核心原理

同时，Kafka还支持对消息进行压缩，减小了消息的存储空间，降低了网络传输的开销，进一步提高了读写性能。它通过直接内存访问（DMA）技术，将数据从磁盘读取到内存或者从内存写入到磁盘，避免了数据的多次复制，减少了IO操作的开销，提高了读写性能。它将数据分成多个分区，并将这些分区分布在不同的节点上，实现了数据的并行处理和负载均衡，从而提高了读写性能。综上所述，Kafka通过分布式架构、零拷贝技术、批量写入和压缩、高效的消息索引和存储结构等手段，实现了高速的读写性能，使其成为处理大规模数据流的理想选择。

2024-01-11 22:04:30 1181

原创 2024.1.10 SparkSQL ,函数分类, Spark on HIVE,底层执行流程

UDF: 一对一UDAF: 多对一UDTF: 一对多spark sql原生python只能写udf, 借助pandas等第三方组件就可以写udf和udaf。

2024-01-10 17:45:28 1044

原创 2024.1.9 Spark SQL day06 homework,数据清洗

写死分区数: sparkSession.conf.set('spark.sql.shuffle.partitions',数量)init_df.fillna(value={"{"name":"未知姓名","age":100}).show()init_df.fillna(value=999,subset=["字段1","字段2"]).show()init_df.dropna(thresh=2,subset=["字段1,字段2"]).show()fillna(value,subset):替换缺失值数据。

2024-01-09 22:16:57 662

原创 2024 1.9 Spark_SQL , 数据清洗API , 写出操作

init_df.fillna(value={"id":111,"name":"未知姓名","age":100,"address":"北京"}).show()3- 如果只指定了thresh,那么空值检查的这些字段中,至少需要有thresh(>=thresh)个字段的值不为空,才不会被删除。properties={ 'user' : '用户名', 'password' : '密码' }2- 如果只指定了subset,那么空值的检查,就只会限定在subset指定的范围内。支持本地文件系统和HDFS文件系统。

2024-01-09 17:34:28 1368

原创 2024.1.8 Day04_SparkCore_homeWork

3-Task调度器接收到DAG调度器传递过来的TaskSet集合以后，将Task线程分配给到具体的Executor进行执行，底层是基于调度队列SchedulerBackend。checkpoint检查点: 会截断掉依赖关系, 因为checkpoint将数据保存到更加安全可靠的位置, 不会发生数据丢失的问题, 当执行失败的时候, 也不需要重新回溯执行。当在后续工程中读取数据的时候,优先从缓存中读取,如果缓存中没有数据, 再从检查点读取数据,并且会将数据缓存一份到内存中 ,后续直接从缓存中读取数据。

2024-01-08 15:55:53 1068

原创 2024 .1.7 Day05_Spark_HomeWork； Spark_SQL

需要手动指定schema信息.如果手动指定的时候,名称字段与json中的key名称不一致,会解析不成功, 以null值填充。csv/json中schema的结构,如果是字符串类型,那么字段名称和字段数据类型间,只能以空格分隔。1. Sparksql是基于内存计算 , Hivesql底层是运行在Mr上,也就是基于磁盘进行计算。4. Sparksql可以编写sql也可以编写代码, HIVEsql只能编写sql。, 在使用Spark处理数据的初期,可能输入进来的数据是半结构化或者非结构化的,那么可以。

2024-01-07 21:30:30 1394 2

原创 2024.1.7 Spark SQL , DataFrame

Spark SQL只能处理结构化数据 ,属于Spark框架一个部分Schema:元数据信息特点: 融合性 ,统一数据访问,hive兼容 , 标准化连接将hive sql翻译成Spark上对应的RDD操作 ,底层运行SparkRDDDataFrames是在RDD上面增加与省略了一些东西DataFrame = RDD -泛型 +Schema +方便到的SQL操作 + 优化 ,是个特殊的RDDRDD存储任意结构数据;DataFrame存储二维表结构数据。

2024-01-07 19:27:12 1201

原创 2024.1.5 Hadoop阶段,各组件工作原理,八股文,面试题

leader宕机后启动: 每一个leader当老大的时候,都会产生新纪元epoch,且每次操作完节点数据都会更新事务id(高32位_低32位) ,当leader宕机后,剩下的follower就会综合考虑几个因素选出最新的leader,先比较最后一次更新数据事务id(高32位_低32位),谁的事务id最大,谁就当选leader,如果更新数据的事务id都相同的情况下,就需要再次考虑myid,谁的myid大,谁就当选leader。那么排序后的结果是、、。如果没有，直接输出到文件中。

2024-01-06 22:15:40 1620

原创 2024.1.6 Spark_Core 分词处理,RDD持久化,内核调度

每个上游Task线程处理数据,数据处理完以后,先放在内存中,接着对内存中的数据进行分区排序.将内存中的数据溢写到磁盘,形成一个个的小文件.写完后将多个小文件合并成为一个大的磁盘文件;checkpoint检查点: 会截断掉依赖关系, 因为checkpoint将数据保存到更加安全可靠的位置, 不会发生数据丢失的问题, 当执行失败的时候, 也不需要重新回溯执行。,让spark程序并行计算 ,一个分区数据计算有问题,其他分区不受影响 , 父RDD 的分区和子RDD的分区关系是一对一的关系。

2024-01-06 21:44:12 1134

原创 2024.1.4 Spark Core ,RDD ,算子

构建RDD, setMaster 的local 数量 ,minPartitions , 文件的具体数量 ,都会影响分区的数量, 当设置了minPartitions的时候,7 .RDD 的分区数据量受到多个因素,例如:机器Cpu的核数 , 调用的算子 , 算子中参数的设置, 集群的类型等 . 实际中一般。1、分区：RDD逻辑上是分区的，仅仅是定义分区的规则，并不是直接对数据进行分区操作，因为RDD本身不存储数据。,RDD是只读的，要想改变RDD中的数据，只能在现有的RDD基础上创建新的RDD。

2024-01-04 18:13:09 1179

原创 2024.1.3 Spark on Yarn部署方式与工作原理

Amazon EMR模式：Amazon EMR是亚马逊提供的一种托管式的大数据处理服务，可以用来快速、简便地部署Spark集群。在YARN模式下，Spark作为一个YARN应用程序运行在YARN集群上。这种部署方式适用于大规模的集群。缺点: Driver进程和Yarn集群可能不在同一个集群中，会导致Driver和Executor进程间进行数据交换的时候，效率比较低。优点: Driver进程和Yarn集群在同一个集群中，Driver和Executor进程间进行数据交换的时候，效率比较高。

2024-01-03 20:45:21 1228

原创 2024.1.3 Spark架构角色和提交任务流程

Cluster Manager：集群管理器是负责管理整个Spark集群的组件，它可以是Standalone模式下的Spark自带的集群管理器，也可以是其他第三方集群管理器，如YARN或Mesos。TaskScheduler：维护所有TaskSet，分发Task给各个节点的Executor（根据数据本地化策略分发Task），监控task的运行状态，负责重试失败的task；Master：主节点是Spark集群的管理节点，负责分配任务给各个执行器，并监控它们的状态。RDD可以在内存中缓存，并支持容错和恢复。

2024-01-03 14:40:42 1460 1

原创 2024.1.2 Spark 简介,架构,环境部署,词频统计

1. Spark 和MapReduceMR:大量的磁盘反复写入,运行是基于进程进行数据处理,创建和销毁的过程比较消耗资源,并且速度较慢Spark:基于线程执行任务,引入新的数据结构RDD(弹性分布式数据集),让spark基于内存进行运行,比磁盘速度快很多2. 进程与线程进程:app,不同软件线程:微信里的每个聊天对话3. 四大特点高效性 (快), 易用性(多语言), 通用性(提供了多个工具库), 兼容性(任何地方运行)一个主角色 Master的职责:1.管理众多的从角色。

2024-01-02 17:04:28 1417

2024.4.19 Python爬虫复习day07 可视化3

2024.4.18 Python爬虫复习day06 可视化2

2024.4.17 Python爬虫复习day05 可视化

2024.4.16 Python爬虫复习day04

2024.4.15 Python爬虫复习day03代码

day01-project

day02-project

2024.4.14 复习Day02-Source

空空如也