T魏晋南北朝T-CSDN博客

原创 KMP字符串方法

KMP的新理解，试着融入一丝丝归纳法的影子。

2023-07-28 23:03:19 54 1

原创 ch3 统计分类问题详解

直接对y=0/1的数据做linear regression的结果如下：所以考虑Py1∣xxβPy1∣xxβ是不行的，没有办法保证结果落在合理的概率区间，为了让结果能落入概率的取值范围，引入sigmoid函数考虑Py1∣x11exp⁡xβPy1∣x1expxβ1进一步不难得到log⁡Py1∣xPy0∣xxβlogPy0∣xPy1∣xxβ。

2023-05-15 16:37:11 79

原创 MSBD5003 Project2.0: Decision Tree Model

书接，我们构建了id3的决策树，能够按照我们所指定的k列生成最多k层的决策树。本文在扩展使用方法之外还试图加快了运行速度(未完全果)。然后就发生了神奇的一幕：......所有的预测结果都无一例外的是同一个，原因可能是因为分的还是太粗糙了，两条指标最多能分出M（第一条指标取值数量）*N（第二...）类，但这几类中可能都是Not_Canceled占比大，所以预测结果就肯定全都是Not_Canceled了。确实是无论哪种情况下Not_Canceled的都更多，这棵树构造的没问题。

2023-04-29 11:12:23 85

原创关于pyspark.sql的一个无聊测试

我们都知道spark.read读出来的数据格式为pyspark.sql.dataframe.DataFrame,但是pyspark.sql中针对行row&column有特别的数据结构，我很好奇二者是什么关系，如何进行相互转化，于是有了下面这个实验。此时的data的type是 pyspark.sql.dataframe.DataFrame,想要获取行或者列直接slice是行不通的，所以才有如下的一些获取手段。

2023-04-24 20:35:07 127

原创 MSBD5003 Project1.0: Decision Tree Model

把数据看做随机变量的话，信息熵是用来度量这个随机变量所包含的信息量或不确定性的指标。H−∑pxilog2pxiH−∑pxilog2pxi对于不确定性，我们自然是希望它越小越好。举个简单的例子，我们数据中booking status是我们最终要预测的指标，其按照canceled,not canceled可以分为两类即Xx1x2Xx1x2一共有两种取值。

2023-04-24 15:15:53 133

原创 Statistical Prediction Ch6.0: Linear Model Selection

课程学习内容的复习

2023-04-16 20:13:23 147 2

原创 2218. Maximum Value of K Coins From Piles

实现代码如下，ps. key_map[i][coins]!= -1的判断非常重要，可以省去重复的计算，否则会超时。（一开始的思路有问题，一个一个点去规划，效率比较低，然而最好按照piles进行分叉）解题思路：考虑使用动态规划算法，将当前piles和剩余可选硬币数量作为状态参数。表示目前考虑从第0个（及之后）pile向外拿东西，剩余能拿两次。

2023-04-16 02:02:41 72 1

原创 516. Longest Palindromic Subsequence解题思路

YouTube上学来的，总结一下

2023-04-14 18:57:28 80

原创 R实现的LM和KNN结果的对比

R语言入门作业篇

2023-03-12 17:14:53 145

原创 Python爬虫实现的简单案例

自我学习的过程记录，怕自己以后会忘，以后要用直接来调用就好，希望以后的自己能够看懂！

2022-07-17 22:55:49 255

TwjnbcT的博客