自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 KMP字符串方法

KMP的新理解,试着融入一丝丝归纳法的影子。

2023-07-28 23:03:19 54 1

原创 ch3 统计分类问题详解

直接对y=0/1的数据做linear regression的结果如下:所以考虑Py1∣xxβPy1∣xxβ是不行的,没有办法保证结果落在合理的概率区间,为了让结果能落入概率的取值范围,引入sigmoid函数考虑Py1∣x11exp⁡xβPy1∣x1expxβ1​进一步不难得到log⁡Py1∣xPy0∣xxβlogPy0∣xPy1∣x​xβ。

2023-05-15 16:37:11 79

原创 MSBD5003 Project2.0: Decision Tree Model

书接,我们构建了id3的决策树,能够按照我们所指定的k列生成最多k层的决策树。本文在扩展使用方法之外还试图加快了运行速度(未完全果)。然后就发生了神奇的一幕:......所有的预测结果都无一例外的是同一个,原因可能是因为分的还是太粗糙了,两条指标最多能分出M(第一条指标取值数量)*N(第二...)类,但这几类中可能都是Not_Canceled占比大,所以预测结果就肯定全都是Not_Canceled了。确实是无论哪种情况下Not_Canceled的都更多,这棵树构造的没问题。

2023-04-29 11:12:23 85

原创 关于pyspark.sql的一个无聊测试

我们都知道spark.read读出来的数据格式为pyspark.sql.dataframe.DataFrame,但是pyspark.sql中针对行row&column有特别的数据结构,我很好奇二者是什么关系,如何进行相互转化,于是有了下面这个实验。此时的data的type是 pyspark.sql.dataframe.DataFrame,想要获取行或者列直接slice是行不通的,所以才有如下的一些获取手段。

2023-04-24 20:35:07 127

原创 MSBD5003 Project1.0: Decision Tree Model

把数据看做随机变量的话,信息熵是用来度量这个随机变量所包含的信息量或不确定性的指标。H−∑pxilog2pxiH−∑pxi​log2​pxi​对于不确定性,我们自然是希望它越小越好。举个简单的例子,我们数据中booking status是我们最终要预测的指标,其按照canceled,not canceled可以分为两类即Xx1x2Xx1​x2​一共有两种取值。

2023-04-24 15:15:53 133

原创 Statistical Prediction Ch6.0: Linear Model Selection

课程学习内容的复习

2023-04-16 20:13:23 147 2

原创 2218. Maximum Value of K Coins From Piles

实现代码如下,ps. key_map[i][coins]!= -1的判断非常重要,可以省去重复的计算,否则会超时。(一开始的思路有问题,一个一个点去规划,效率比较低,然而最好按照piles进行分叉)解题思路:考虑使用动态规划算法,将当前piles和剩余可选硬币数量作为状态参数。表示目前考虑从第0个(及之后)pile向外拿东西,剩余能拿两次。

2023-04-16 02:02:41 72 1

原创 516. Longest Palindromic Subsequence解题思路

YouTube上学来的,总结一下

2023-04-14 18:57:28 80

原创 R实现的LM和KNN结果的对比

R语言入门作业篇

2023-03-12 17:14:53 145

原创 Python爬虫实现的简单案例

自我学习的过程记录,怕自己以后会忘,以后要用直接来调用就好,希望以后的自己能够看懂!

2022-07-17 22:55:49 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除