- 博客(10)
- 收藏
- 关注
原创 ch3 统计分类问题详解
直接对y=0/1的数据做linear regression的结果如下:所以考虑Py1∣xxβPy1∣xxβ是不行的,没有办法保证结果落在合理的概率区间,为了让结果能落入概率的取值范围,引入sigmoid函数考虑Py1∣x11expxβPy1∣x1expxβ1进一步不难得到logPy1∣xPy0∣xxβlogPy0∣xPy1∣xxβ。
2023-05-15 16:37:11 79
原创 MSBD5003 Project2.0: Decision Tree Model
书接,我们构建了id3的决策树,能够按照我们所指定的k列生成最多k层的决策树。本文在扩展使用方法之外还试图加快了运行速度(未完全果)。然后就发生了神奇的一幕:......所有的预测结果都无一例外的是同一个,原因可能是因为分的还是太粗糙了,两条指标最多能分出M(第一条指标取值数量)*N(第二...)类,但这几类中可能都是Not_Canceled占比大,所以预测结果就肯定全都是Not_Canceled了。确实是无论哪种情况下Not_Canceled的都更多,这棵树构造的没问题。
2023-04-29 11:12:23 85
原创 关于pyspark.sql的一个无聊测试
我们都知道spark.read读出来的数据格式为pyspark.sql.dataframe.DataFrame,但是pyspark.sql中针对行row&column有特别的数据结构,我很好奇二者是什么关系,如何进行相互转化,于是有了下面这个实验。此时的data的type是 pyspark.sql.dataframe.DataFrame,想要获取行或者列直接slice是行不通的,所以才有如下的一些获取手段。
2023-04-24 20:35:07 127
原创 MSBD5003 Project1.0: Decision Tree Model
把数据看做随机变量的话,信息熵是用来度量这个随机变量所包含的信息量或不确定性的指标。H−∑pxilog2pxiH−∑pxilog2pxi对于不确定性,我们自然是希望它越小越好。举个简单的例子,我们数据中booking status是我们最终要预测的指标,其按照canceled,not canceled可以分为两类即Xx1x2Xx1x2一共有两种取值。
2023-04-24 15:15:53 133
原创 2218. Maximum Value of K Coins From Piles
实现代码如下,ps. key_map[i][coins]!= -1的判断非常重要,可以省去重复的计算,否则会超时。(一开始的思路有问题,一个一个点去规划,效率比较低,然而最好按照piles进行分叉)解题思路:考虑使用动态规划算法,将当前piles和剩余可选硬币数量作为状态参数。表示目前考虑从第0个(及之后)pile向外拿东西,剩余能拿两次。
2023-04-16 02:02:41 72 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人