MSBD5003 大数据计算
文章平均质量分 83
T魏晋南北朝T
这个作者很懒,什么都没留下…
展开
-
MSBD5003 Project1.0: Decision Tree Model
把数据看做随机变量的话,信息熵是用来度量这个随机变量所包含的信息量或不确定性的指标。H−∑pxilog2pxiH−∑pxilog2pxi对于不确定性,我们自然是希望它越小越好。举个简单的例子,我们数据中booking status是我们最终要预测的指标,其按照canceled,not canceled可以分为两类即Xx1x2Xx1x2一共有两种取值。原创 2023-04-24 15:15:53 · 133 阅读 · 0 评论 -
关于pyspark.sql的一个无聊测试
我们都知道spark.read读出来的数据格式为pyspark.sql.dataframe.DataFrame,但是pyspark.sql中针对行row&column有特别的数据结构,我很好奇二者是什么关系,如何进行相互转化,于是有了下面这个实验。此时的data的type是 pyspark.sql.dataframe.DataFrame,想要获取行或者列直接slice是行不通的,所以才有如下的一些获取手段。原创 2023-04-24 20:35:07 · 127 阅读 · 0 评论 -
MSBD5003 Project2.0: Decision Tree Model
书接,我们构建了id3的决策树,能够按照我们所指定的k列生成最多k层的决策树。本文在扩展使用方法之外还试图加快了运行速度(未完全果)。然后就发生了神奇的一幕:......所有的预测结果都无一例外的是同一个,原因可能是因为分的还是太粗糙了,两条指标最多能分出M(第一条指标取值数量)*N(第二...)类,但这几类中可能都是Not_Canceled占比大,所以预测结果就肯定全都是Not_Canceled了。确实是无论哪种情况下Not_Canceled的都更多,这棵树构造的没问题。原创 2023-04-29 11:12:23 · 85 阅读 · 0 评论