新火之光-CSDN博客

原创树模型与集成学习（一）——决策树

树模型与集成学习（一）——决策树习题1证明 G(Y,X)=H(X)−H(X∣Y)G(Y,X)=H(X)-H(X|Y)G(Y,X)=H(X)−H(X∣Y)证明 G(Y,X)=H(X)+H(Y)−H(X,Y)G(Y,X)=H(X)+H(Y)-H(X,Y)G(Y,X)=H(X)+H(Y)−H(X,Y)证明G(Y,X)=H(Y,X)−H(X∣Y)−H(Y∣X)G(Y,X)=H(Y,X)-H(X\vert Y)-H(Y\vert X)G(Y,X)=H(Y,X)−H(X∣Y)−H(Y∣X)图片指代的区域练习2练习3参考

2021-10-15 00:12:58 503

原创集成学习作业Task04

集成学习作业Task04作业1分类与回归问题2分类问题的损失函数参考链接本文为Datawhale组队学习项目——集成学习的作业Task相关视频相关资料作业1分类与回归问题输入变量与输出变量均为连续变量的预测问题是回归问题，例如给你一组数据要你预测明天的温度输出变量为有限个离散变量的预测问题为分类问题，例如预测明天是否有雨，这只有两种状态：有或者没有。如何用回归理解分类：如果我们把回归问题中的输出变量划分为不同的区间，就将回归问题转变为分类问题，例如按照年龄划分儿童、青少年、成年、老年。

2021-09-27 02:19:26 419

原创集成学习作业Task03

集成学习作业Task03作业31.什么是偏差与方差2. 偏差、方差与误差3.训练误差与测试误差4.岭回归与Lasso回归本文为Datawhale组队学习项目——集成学习的作业Task相关视频相关资料作业31.什么是偏差与方差如上图所示：红色线表示真实模型，蓝色线表示一百个数据集用模型拟合而成的曲线，黑色线表示平均值，偏差代表的是预测值与真实值的偏离程度，例如左边的两图，他们的预测图像（蓝色）与真实图像（红色）有较大差距，所以偏差大，而使用复杂图像使得预测图像与真实图像差距不大，，表示偏差小

2021-09-22 23:51:43 383

原创集成学习作业Task02

集成学习作业Task02作业2（1）线性回归模型的最小二乘表达（2）极大似然估计与最小二乘法的联系（3）多项式为什么表现不好参考资料本文为Datawhale组队学习项目——集成学习的作业Task相关视频相关资料作业2（1）线性回归模型的最小二乘表达线性回归模型：假设：数据集D={(x1,y1),...,(xN,yN)}D = \{(x_1,y_1),...,(x_N,y_N) \}D={(x1,y1),...,(xN,yN)}，xi∈Rp,yi∈R,i=1,2,...,Nx_i \i

2021-09-19 23:57:21 317

原创集成学习作业Task01

集成学习作业Task01作业1本文为Datawhale组队学习项目——集成学习的作业Task相关视频相关资料作业1第一问：通过代码验证aaa对于图像的形状没有影响，bbb则会根据b<0、b=0、b>0b<0、b=0、b>0b<0、b=0、b>0三种情况，出现三种图像。如下图所示。b>0b=0b<0作业2,采用牛顿法计算极值点，迭代500次，步长取0.1，代码：import numpy as npimport

2021-09-17 01:14:46 261

原创 Datawhale组队学习——数据分析入门（五）

Datawhale组队学习——数据分析入门（五）特征工程建模任务一：切割训练集和测试集任务二：数据建模任务三：输出模型预测结果模型评估交叉验证任务2 混淆矩阵任务3 ROC曲线本文为datawhale数据分析开源课程的学习笔记，课程链接使用的数据为kaggle上的泰坦尼克数据特征工程import pandas as pdimport numpy as np# 读取训练数集train = pd.read_csv('train.csv')train.shape对分类变量缺失值：填充某个缺

2021-07-21 23:51:27 624 1

原创 Datawhale组队学习——数据分析入门（四）

Datawhale组队学习——数据分析入门（四）数据可视化参考资料本文为datawhale数据分析开源课程的学习笔记，课程链接使用的数据为kaggle上的泰坦尼克数据数据可视化导入数据和包import numpy as npimport pandas as pdimport matplotlib.pyplot as plttext = pd.read_csv(r'result.csv')面对不同的需求，通常数据可视化的图案也不一致，常用的包括散点图、折线图、柱状图等，它们对应的作用如

2021-07-19 23:53:01 255

原创 Datawhale组队学习——数据分析入门（三）

数据分析入门（三）

2021-07-18 00:13:23 261 2

原创 Datawhale组队学习——数据分析入门（二）

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录

2021-07-15 18:07:34 272

原创 datawhale组队学习——数据分析入门（一）

数据分析入门（一）数据载入pandas 基础入门Seriesdataframe数据分析探索参考链接数据载入以kaggle上泰坦尼克的任务为例，数据链接导入numpy和pandasimport numpy as npimport pandas as pd载入数据路径# 绝对路径#df = pd.read_csv('E:/file/data_analysis/train.csv')#相对路径df = pd.read_csv('train.csv')#读取数据前三行df.head

2021-07-14 01:31:42 438

原创 faster-rcnn学习笔记

py-faster-rcnn源码学习笔记重要概念caffe-fast-rcnn代码源码：https://github.com/rbgirshick/py-faster-rcnn重要概念ROI (Region Of Interest) : 从目标图像中识别出的候选识别区域。ROI pooling :一个简化的spp池化，将原始图像的ROI变为固定的特征。RPN（Region Proposal Network）：区域生成网络。它的作用是根据原图片卷积产生的feature map得到一系列的p

2021-04-17 16:26:33 272

原创 Datawhale组队学习——深度学习推荐系统（5）

深度学习推荐系统（5）Embeding &MLP的缺陷DIN特征模型结构Embeding &MLP基础模型DIN对于推荐系统的思考参考资料Embeding &MLP的缺陷我们之前所讲的模型，都有这样的特点：首先将大规模稀疏特征映射到Embedding,然后转换其维度后连接多层感知器（MLP），以此学习特征的非线性关系。这些方法的优点是显而易见的，能够减少大量的特征工程，同时取得很好的效果。因此在推荐系统领域非常流行。这类模型被DIN作者统称为Embeding &MLP但

2021-03-27 23:12:14 376

原创 Datewhale组队学习——深度学习推荐系统（4）

深度学习推荐系统（4）模型背景模型结构F（x）各层解析Embedding LayerBi-Interaction 层隐藏层输出层论文补充相比FM相比DeepCross参考资料模型背景web应用程序的变量大部分是离散的、非连续的。在稀疏的数据中建立模型，需要挖掘出特征之间的关联。很多成功的算法依靠手动进行特征组合，这类做法的缺点是成本很高，需要依靠大量人力进行设计，难以推广。因此，解决方案是设计专门自动学习特征的模型，代表模型FM。但FM本身基于线性模型，性能有限，所以需要更复杂的模型，于是，作者提出了N

2021-03-24 19:00:58 373

原创 Datewhale组队学习——深度学习推荐系统（3）

深度学习推荐系统（3）CTR问题背景——处理CTR问题的关键FM模型（Factorization Machines）DNN局限性DeepFM 模型思考题参考资料CTR问题CTR（Click-Through-Rate）即点击通过率，是互联网广告常用的术语，指网络广告（图片广告/文字广告/关键词广告/排名广告/视频广告等）的点击到达率，即该广告的实际点击次数（严格的来说，可以是到达目标页面的数量）除以广告的展现量（Show content）。CTR是衡量互联网广告效果的一项重要指标。CTR点击率预估，是

2021-03-21 22:09:10 504

原创 Datewhale组队学习——深度学习推荐系统（2）

深度学习推荐系统（2）长尾分布Embedding的缺陷Memorization与GeneralizationWide & Deep 模型结构wide部分Deep部分结合一些问题的思考参考资料长尾分布长尾（The Long Tail）,可以通俗地解释为：只要存储和流通的渠道足够大，需求不旺或销量不佳的产品共同占据市场的份额甚至可以和那些数量不多的热卖品所占据的市场份额相匹敌或更大。长尾分布说明那些不够热门的商品也有其自身的重要性。Embedding的缺陷基于Embedding的方式可能因为

2021-03-17 23:22:46 406

原创 Datewhale组队学习——深度学习推荐系统（1）

深度学习推荐系统（1）什么是推荐系统？什么是推荐系统？预测用户对物品的评分行为成为评分预测,评分预测模型通过对用户的历史物品评分记录进行建模,进而得到用户的兴趣模型,然后使用该模型预测用户未未见过商品的评分.评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算.对于测试集中的一个用户uuu和物品iii,令ruir_{ui}rui是用户uuu对物品iii的实际评分,而rui^\hat{r_{ui}}rui^是推荐模型预测出的评分,那么RMSE可以定义为: RMSE=∑u,i

2021-03-16 23:32:19 933

原创 C++学习总结（一）

C++学习总结入门学习资源：https://www.bilibili.com/video/BV1QE41147RT?p=1入门C++程序开发过程1 算法设计2源程序编辑3编译4连接5运行调试重视文档，程序=代码+文档C++支持面向对象的观点和方法。面向对象把客观事物看作对象，对象间通过消息传送面向对象的基本概念：封装：隐蔽细节，对外形成边界，只保留有限的对外接口，使用方便、安全。继承：改造、扩展已有类多态：同样的信息作用在不同对象上有可能引起不同的效果。代码的运行过程：高级语

2021-03-08 10:58:50 1176

原创 python蓝桥模拟晚会节目单

【问题描述】小明要组织一台晚会，总共准备了 n 个节目。然后晚会的时间有限，他只能最终选择其中的 m 个节目。这 n 个节目是按照小明设想的顺序给定的，顺序不能改变。小明发现，观众对于晚上的喜欢程度与前几个节目的好看程度有非常大的关系，他希望选出的第一个节目尽可能好看，在此前提下希望第二个节目尽可能好看，依次类推。小明给每个节目定义了一个好看值，请你帮助小明选择出 m 个节目，满足他的要求。【输入格式】输入的第一行包含两个整数 n, m ，表示节目的数量和要选择的数量。第二行包含 n 个整数，依次为每个节目

2021-02-15 23:39:21 378 2

原创 python序列记数

【问题描述】小明想知道，满足以下条件的正整数序列的数量：1. 第一项为 n；2. 第二项不超过 n；3. 从第三项开始，每一项小于前两项的差的绝对值。请计算，对于给定的 n，有多少种满足条件的序列。【输入格式】输入一行包含一个整数 n。【输出格式】输出一个整数，表示答案。答案可能很大，请输出答案除以10000的余数。【样例输入】4【样例输出】7【样例说明】以下是满足条件的序列：4 14 1 14 1 24 24 2 14 34 4【评测用例规模与约定】对于 20% 的评测用例，1 <= n

2021-02-15 20:46:55 340 3

原创 python 单词分段

小明对类似于 hello 这种单词非常感兴趣，这种单词可以正好分为四段，第一段由一个或多个辅音字母组成，第二段由一个或多个元音字母组成，第三段由一个或多个辅音字母组成，第四段由一个或多个元音字母组成。给定一个单词，请判断这个单词是否也是这种单词，如果是请输出yes，否则请输出no。def check(word): Vowel=['a', 'e', 'i', 'o', 'u'] check_num=[] for i in word: if i in Vowel:

2021-02-10 11:56:14 275 1

原创 Python 给定一个数列，请问数列中有多少个元素可能是递增三元组的中心

这里写自定义目录标题问题描述　　在数列 a[1], a[2], …, a[n] 中，如果对于下标 i, j, k 满足 0<i<j<k<n+1 且 a[i]<a[j]<a[k]，则称 a[i], a[j], a[k] 为一组递增三元组，a[j]为递增三元组的中心。　　给定一个数列，请问数列中有多少个元素可能是递增三元组的中心。def is_increase(list): n=0 for i in range(1,len(list)-1):

2021-02-01 14:50:52 412 1

原创（python）在1至2019中，有多少个数的数位中包含数字9？

在1至2019中，有多少个数的数位中包含数字9？注意，有的数中的数位中包含多个9，这个数只算一次。例如，1999这个数包含数字9，在计算只是算一个数。num=0for i in range(1,2020): a=str(i) for s in a: if s=="9": num+=1 breakprint(num)结果：544...

2021-01-26 20:53:07 1598 1

原创 (python) 1200000有多少个约数（只计算正约数）

1200000有多少个约数（只计算正约数）a=1200000n=0for i in range(1,int(a**0.5)): if a%i==0: n+=2print(n)

2021-01-26 19:38:30 651

原创李毅宏的机器学习作业6

李毅宏的机器学习作业5作业所需数据 akti作业参考答案

2020-09-25 15:15:19 662 1

原创李毅宏的机器学习作业5

李毅宏的机器学习作业5作业要求Task1——Sailency Map作业所需数据 akti作业参考答案作业要求在作业三中我们使用CNN编写了一个食物分类器，本次作业在作业三的基础对神经网络做一个解释工作，共有四个具体的Task,下面一个个分析。Task1——Sailency Map...

2020-09-14 23:19:23 857

原创目标检测算法总结（3）——Faster RCNN

目标检测算法总结（3）——Faster RCNN算法步骤RPN参考：在RCNN与Fast RCNN之后，它们的作者Ross又推出了“Faster RCNN”,进一步提升了速度与准确率，并在2015年的coco等多个竞赛中夺魁。算法步骤首先回顾下Fast RCNN的步骤：——在图像上使用Selective Search生成1k~2k个候选区域。——将图像输入网络得到相应的特征图，将SS算法生成的候选框投影到特征图上获得相应的特征矩阵。——将每个特征矩阵通过ROI pooling层缩放到7*7大小

2020-08-31 12:35:15 825

原创目标检测算法总结（2）——Fast RCNN

目标检测算法总结（2）——Fast RCNN前言算法步骤参考前言R-CNN诞生后，深度学习在目标检测上的优势开始显示，于是各类应用深度学习的目标检测算法开始如雨后春笋般冒了出来，R-CNN的作者Ross Girshick不满足于已经取得的成就，在2015年发布了R-CNN算法的改进版——“Fast RCNN”,顾名思意比原来的“RCNN”快的多，根据作者的测试比较，在上PascalVoc数据集，训练速度提升9倍，测试速度提升213倍。准确率也有从62%到66%。那么Fast RCNN到底在RCNN上改

2020-08-30 09:37:18 988

原创目标检测算法总结（1）——R-CNN

目标检测算法总结——R-CNN1 前言1 前言目标检测是人工智能里的一个传统领域，它的基本任务是图像识别并确定识别目标的基本位置。在2012年之前，目标检测所使用的传统方法主要分为三步：区域选择、特征提取、分类。这些传统方法有着耗时严重、产生过多冗余、鲁棒性差等缺点，使得整个目标检测发展较慢。2012年开始，深度卷积网络被应用到目标检测，取得了突破性进步，而R-CNN便是目标检测卷积网络中的第一个里程碑。R-CNN诞生在2013年，作者是Ross Girshick，对应的paper是《Rich f

2020-08-30 09:36:31 1159

qq_45878378的博客