吗喽也是命
码龄2年
关注
提问 私信
  • 博客:98,918
    问答:62
    98,980
    总访问量
  • 51
    原创
  • 1,586,091
    排名
  • 130
    粉丝
  • 4
    铁粉

个人简介:文章中所有内容仅供学习交流,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:重庆市
  • 加入CSDN时间: 2022-11-20
博客简介:

2202_75347029的博客

查看详细资料
个人成就
  • 获得187次点赞
  • 内容获得87次评论
  • 获得1,279次收藏
  • 代码片获得311次分享
创作历程
  • 51篇
    2023年
成就勋章
TA的专栏
  • 爬虫
  • 大数据
    41篇
兴趣领域 设置
  • Python
    python
  • 大数据
    hbasehadoophivesparkkafkaflinknosql
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

爬虫学习-基础库的使用(requests)

实际上, requests 在发送请求的时候,是在内部构造了一个 Request 对象,并给这个对象赋予了各种参数,包括url、headers、data等,然后直接把这个Request 对象发送出去,请求成功后会再得到一个Response对象,解析这个对象即可。可以,但这样做显得很烦琐,我们有更简单的解决方法。这里通过比较返回码和内置的表示成功的状态码,来保证请求是否得到了正常响应,如果是,就输出请求成功的消息,否则程序终止运行,这里我们用requests.codes.ok得到的成功状态码是 200。
原创
发布博客 2023.12.10 ·
513 阅读 ·
5 点赞 ·
1 评论 ·
6 收藏

爬虫学习-基础库的使用(urllib库)

一、urllib库介绍urllib是Python的内置的HTTP请求库,不需要另外下载,可直接使用。urllib库包含以下四个模块:最基本的HTTP请求模块。可以模拟请求的发送。就像在浏览器李输入网址然后按下回车一样,只需要给库方法传入URL以及额外的参数,就可以发送请求的过程了。异常处理模块。如果出先请求异常,那么我们可以捕获这些异常,然后进行重试或其他操作以保证程序运行不会意外停止。工具模块。提供了许多URL的处理方法,例如拆分、解析、合并等。
原创
发布博客 2023.12.09 ·
615 阅读 ·
11 点赞 ·
1 评论 ·
8 收藏

爬虫学习-基础(HTTP原理)

Cookie 里有信息标识了我们所对应的服务器的会话,每次浏览器在请求该站点的页面时,都会在请求头中加上 Cookie 并将其发送给服务器,服务器通过Cookie 识别出是我们自己,并且查出当前状态是登录状态,所以返回结果就是登录之后才能看到的网页内容。但在HTTP2.0中,由于有了二进制分帧技术的加持, HTTP 2.0不用再以 TCP 连接的方式去实现多路并行了,客户端和服务器可以将HTTP消息分解为互不依赖的帧,然后交错发送,最后再在另一端把它们重新组装起来,达到以下效果。
原创
发布博客 2023.12.02 ·
1671 阅读 ·
16 点赞 ·
1 评论 ·
23 收藏

Spark新特性与核心概念

1.AQE的开启通过: spark.sql.adaptive.enabled设置为true开启。2.AQE是自动化优化机制,无需我们设置复杂的参数调整,开启AQE符合条件即可自动化应用AQE优化。3.AQE带来了极大的SparkSQL性能提升。
原创
发布博客 2023.10.28 ·
1099 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

SparkSQL综合案例-省份维度的销售情况统计分析

报错:java.sql.BatchUpdateException: Incorrect string value: '\xE6\xB1\x9F\xE8\xA5\xBF...' for column 'storeProvince' atrow1。原因:MySQL的UTF-8只支持3个字节的unicode字符,无法支持四个字节的Unicode字符。②TOP3销售省份中,有多少家店铺日均销售额1000+④TOP3省份中,各个省份的支付类型比例。③TOP3省份中,各个省份的平均单价。①将需求结果写出到mysql。
原创
发布博客 2023.10.28 ·
790 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Spark On Hive原理和配置

包含Hive、MySQL等安装配置
原创
发布博客 2023.10.26 ·
2969 阅读 ·
0 点赞 ·
0 评论 ·
12 收藏

SparkSQL执行流程与Catalyst优化器

catalyst的各种优化细节非常多,大方面的优化点有2个:将逻辑判断提前到前面,以减少shuffle阶段的数据量。简述,行过滤,提前执行where。将加载的列进行裁剪,尽量减少被处理数据的宽度。简述,列过滤,提前规划select的字段数量。(5)Spark SQL执行流程1.提交SparkSQL代码2.catalyst优化a.生成原始AST语法数b.标记AST元数据c.进行断言下推和列值裁剪以及其它方面的优化作用在AST上d.将最终AST得到,生成执行计划e.将执行计划翻译为RDD代码。
原创
发布博客 2023.10.25 ·
464 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark_SQL函数定义(定义UDF函数、使用窗口函数)

无论Hive还是SparkSQL分析处理数据时,往往需要使用函数,SparkSQL模块本身自带很多实现公共功能的函数,在pyspark.sql.functions中。SparkSQL与Hive一样支持定义函数:UDF和UDAF,尤其是UDF函数在实际项目中使用最为广泛。Hive中自定义函数有三种类型:第一种:UDF(User-Defined_-function)函数一对一的关系,输入一个值经过函数以后输出一个值;
原创
发布博客 2023.10.25 ·
2179 阅读 ·
1 点赞 ·
3 评论 ·
1 收藏

Spark_SQL-DataFrame数据写出以及读写数据库(以MySQl为例)

①jdbc连接字符串中,建议使用useSSL=false 确保连接可以正常连接( 不使用SSL安全协议进行连接)②jdbc连接字符串中,建议使用useUnicode=true 来确保传输中不出现乱码。③save()不要填参数,没有路径,是写出数据库。④dbtable属性:指定写出的表名。
原创
发布博客 2023.10.24 ·
1139 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

SparkSQL的Shuffle分区设定及异常数据处理API(去重、缺失值处理)

在Spark SQL中,当Job中产生Shuffle时,默认的分区数(spark.sql.shuffle.partions)为200,在实际项目中要合理的设置。在允许spark程序时,查看WEB UI监控页面发现,某个Stage中有200个Task任务,也就是说RDD有200分区Partion。功能:如果数据中包含null通过dropna来进行判断,符合条件就删除这一行数据。功能:对DF的数据进行去重,如果重复数据有多条,取第一条。功能:根据参数的规则,来进行null的替换。
原创
发布博客 2023.10.23 ·
681 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

电影评分数据分析案例-Spark SQL

【代码】电影评分数据分析案例-Spark SQL。
原创
发布博客 2023.10.23 ·
1949 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Spark SQL概述与基本操作

Spark SQL是Apache Spark的一个模块,它用于处理结构化和半结构化的数据。Spark SQL允许用户使用SQL查询和操作数据,这种操作可以直接在Spark的DataFrame/Dataset API中进行。此外,Spark SQL还支持多种语言,包括Scala、Java、Python和R。
原创
发布博客 2023.10.23 ·
984 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark内核调度

编程模型上Spark占优(算子够多)。算子交互上,和计算上可以尽量多的内存计算而非磁盘迭代。
原创
发布博客 2023.10.22 ·
808 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

共享变量(广播变量、累加器)

在Spark中,每次任务执行时,都需要将变量从驱动程序发送到每个执行器。如果变量很大,这将导致网络传输和内存开销的增加,从而影响任务的性能。广播变量可以将变量仅发送一次,然后在每个执行器上缓存,以便多个任务可以共享同一个变量,从而减少了网络传输和内存开销,提高了任务的性能。想要对map算子计算中的数据,进行计数累加,得到全部数据计算完后的累加结果。
原创
发布博客 2023.10.21 ·
175 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark案例分析-搜索引擎日志分析案例

【代码】spark案例分析-搜索引擎日志分析案例。
原创
发布博客 2023.10.21 ·
735 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

RDD的持久化

RDD的缓存技术: Spark提供了缓存APl,可以让我们通过调用API,将指定的RDD数据保留在内存或者硬盘上缓存的API。②CheckPoint支持写入HDFS,缓存不行, HDFS是高可靠存储, CheckPoint被认为是安全的。④CheckPoint因为设计认为是安全的,所以不保留血缘关系,而缓存因为设计上认为不安全,所以保留。1.在内存中的缓存是不安全的,比如断电\计算任务内存不足,把缓存清理给计算让路。RDD的数据是过程数据,只在处理的过程中存在,一旦处理完成,就不见了。
原创
发布博客 2023.10.19 ·
184 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

RDD算子操作(基本算子和常见算子)

flatMap(f:T=>Seq[U]): RDD[T]=>RDD[U]),表示将RDD经由某一函数f后,转变为一个新的 RDD,但是与map 不同,RDD中的每一个元素会被映射成新的0到多个元素(f 函数返回的是一个序列Seq)。功能:将RDD的数据,加上嵌套,这个嵌套按照分区来进行,比如RDD数据[1,2,3,4,5]有两个分区,那么glom后,数据变成:[[1,2,3],[4,5]]。功能:map算子,是将RDD的数据一条条处理(处理的逻辑 基于map算子中接受的处理函数),返回新的RDD。
原创
发布博客 2023.10.19 ·
1430 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

Pyspark库以及环境配置

一、pyspark类库类库:一堆别人写好的代码,可以直接导入使用,例如Pandas就是Python的类库。框架:可以独立运行,并提供编程结构的一种软件产品,例如Spark就是一个独立的框架。PySpark是Spark官方提供的一个Python类库,内置了完全的Spark API,可以通过PySpark类库来编写Spark应用程序,并将其提交到Spark集群中运行。(1)下载PySpark库。
原创
发布博客 2023.10.17 ·
2429 阅读 ·
2 点赞 ·
0 评论 ·
13 收藏

Spark数据结构:RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面元素可并行计算的集合。可以认为RDD是分布式的列表List或数组Array,抽象的数据结构,RDD是一个抽象类Abstract Class和泛型Generic Type。
原创
发布博客 2023.10.14 ·
260 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

spark简述

(4)Executor:是一个JVM Process 进程,一个Worker(NodeManager)上可以运行多Executor,Executor通过启动多个线程(task)来执行对RDD的partition进行并行计算,也就是执行我们对RDD定义的例如map、flatMap、reduce等算子操作。(2)在JOb中从读取数据封装为RDD和一切RDD调用方法都是在Executor中执行,其他代码都是在Driver Program中执行。RDD调用函数都是在Executors中执行。进行集群的监控等职责;
原创
发布博客 2023.10.11 ·
71 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多