![](https://img-blog.csdnimg.cn/direct/48d0bd1f236644b28ce55795a35ff28f.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
python数据分析
python数据分析教程
不负长风
这个作者很懒,什么都没留下…
展开
-
对任意变量使用np.isnan
之所以这样写,是因为None和字符串等传入nan会报错,需要try+except捕捉。原创 2024-05-10 18:32:53 · 103 阅读 · 0 评论 -
pandas将inf转为None
【代码】pandas将inf转为None。原创 2024-05-08 17:03:45 · 136 阅读 · 0 评论 -
一文详解pyspark中sql的join
我们是通过学生表的sclass和班级表的cid将两张表关联在一起,所以定义join表达式如下。原创 2024-01-20 17:51:27 · 1731 阅读 · 0 评论 -
一文详解pyspark常用算子与API
对rdd的数据进行嵌套,嵌套按照分区来进行输出:[[1,2,3,4],[5,6,7,8,9]]原创 2023-12-31 15:07:24 · 703 阅读 · 0 评论 -
np.where多个筛选条件
想要筛选出“大于等于2并且小于等于4”的数字下标,首先尝试了如下写法。还有另外一种写法,使用np.logical_and来实现。给每个条件加上括号即可。原创 2023-12-24 15:23:31 · 733 阅读 · 0 评论 -
spark从表中采样(随机选取)一定数量的行
Spark会对表的每个分区进行采样,并根据采样结果计算总体的采样比例,然后从每个分区中选择相应比例的数据。使用一种伪随机函数或随机算法来选择采样的数据。然后,根据指定的采样比例或行数,从随机数序列中选择相应数量的随机数,并返回与这些随机数关联的行。通过使用随机算法和利用分布和分区信息来提供高效的随机采样功能。这种方法可以在大型数据集上提供快速的近似查询结果,同时减少了数据的传输和处理开销。是一种用于在数据库中进行随机采样的方法。它可以通过不同的策略从表中选择一部分数据进行查询,而无需扫描整个表。原创 2023-12-11 09:36:51 · 1435 阅读 · 0 评论 -
spark-08:udf函数、开窗函数
学习视频:黑马程序员Spark全套视频教程,4天spark3.2快速入门到精通,基于Python语言的spark教程_哔哩哔哩_bilibili原创 2023-10-05 10:04:00 · 189 阅读 · 0 评论 -
spark-07:dataframe操作
【代码】spark-07。原创 2023-10-05 09:20:52 · 52 阅读 · 0 评论 -
spark-06:任务调度、dataframe创建
原创 2023-10-05 07:48:28 · 49 阅读 · 0 评论 -
spark-05:并行度、DAG、宽窄依赖
原创 2023-10-04 16:32:30 · 40 阅读 · 0 评论 -
spark-04-常用算子:filter、distinct、union、join、intersection、glom、groupByKey、sort、reduce等
如果要全局有序,排序分区数要设置为1。union算子不会去重。原创 2023-10-03 15:19:44 · 70 阅读 · 0 评论 -
spark-03:RDD、map算子、flatMap算子、reduceByKey算子、mapValues算子、groupBy算子
RDD是抽象概念,分区是物理概念。原创 2023-10-03 15:15:47 · 144 阅读 · 0 评论 -
spark-02:WordCount代码,pyspark原理
原创 2023-10-03 13:54:47 · 62 阅读 · 0 评论 -
spark-01:spark StandAlone模式
原创 2023-10-03 09:45:20 · 58 阅读 · 0 评论 -
spark-00:spark与hadoop对比、spark架构、spark local模式
spark学习笔记原创 2023-04-09 10:47:56 · 102 阅读 · 0 评论 -
pandas-03
原创 2023-10-01 20:46:34 · 51 阅读 · 0 评论 -
pandas-02
原创 2023-10-01 10:29:36 · 36 阅读 · 0 评论 -
pandas-01
【代码】pandas-01。原创 2023-09-30 19:59:50 · 52 阅读 · 0 评论 -
pandas-00
原创 2023-09-30 10:47:09 · 41 阅读 · 0 评论 -
numpy-02
原创 2023-09-30 09:04:01 · 36 阅读 · 0 评论 -
numpy-01
【代码】numpy-01。原创 2023-09-27 16:01:51 · 43 阅读 · 0 评论 -
numpy-00
numpy。原创 2023-09-27 09:55:37 · 40 阅读 · 0 评论