自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 树模型与集成学习(一)——决策树

树模型与集成学习(一)——决策树习题1证明 G(Y,X)=H(X)−H(X∣Y)G(Y,X)=H(X)-H(X|Y)G(Y,X)=H(X)−H(X∣Y)证明 G(Y,X)=H(X)+H(Y)−H(X,Y)G(Y,X)=H(X)+H(Y)-H(X,Y)G(Y,X)=H(X)+H(Y)−H(X,Y)证明G(Y,X)=H(Y,X)−H(X∣Y)−H(Y∣X)G(Y,X)=H(Y,X)-H(X\vert Y)-H(Y\vert X)G(Y,X)=H(Y,X)−H(X∣Y)−H(Y∣X)图片指代的区域练习2练习3参考

2021-10-15 00:12:58 408

原创 集成学习作业Task04

集成学习作业Task04作业1分类与回归问题2分类问题的损失函数参考链接本文为Datawhale组队学习项目——集成学习的作业Task相关视频相关资料作业1分类与回归问题输入变量与输出变量均为连续变量的预测问题是回归问题 , 例如给你一组数据要你预测明天的温度输出变量为有限个离散变量的预测问题为分类问题,例如预测明天是否有雨,这只有两种状态:有或者没有。如何用回归理解分类:如果我们把回归问题中的输出变量划分为不同的区间,就将回归问题转变为分类问题,例如按照年龄划分儿童、青少年、成年、老年。

2021-09-27 02:19:26 331

原创 集成学习作业Task03

集成学习作业Task03作业31.什么是偏差与方差2. 偏差、方差与误差3.训练误差与测试误差4.岭回归与Lasso回归本文为Datawhale组队学习项目——集成学习的作业Task相关视频相关资料作业31.什么是偏差与方差如上图所示:红色线表示真实模型,蓝色线表示一百个数据集用模型拟合而成的曲线,黑色线表示平均值,偏差代表的是预测值与真实值的偏离程度,例如左边的两图,他们的预测图像(蓝色)与真实图像(红色)有较大差距,所以偏差大,而使用复杂图像使得预测图像与真实图像差距不大,,表示偏差小

2021-09-22 23:51:43 290

原创 集成学习作业Task02

集成学习作业Task02作业2(1)线性回归模型的最小二乘表达(2)极大似然估计与最小二乘法的联系(3)多项式为什么表现不好参考资料本文为Datawhale组队学习项目——集成学习的作业Task相关视频相关资料作业2(1)线性回归模型的最小二乘表达线性回归模型:假设:数据集D={(x1,y1),...,(xN,yN)}D = \{(x_1,y_1),...,(x_N,y_N) \}D={(x1​,y1​),...,(xN​,yN​)},xi∈Rp,yi∈R,i=1,2,...,Nx_i \i

2021-09-19 23:57:21 244

原创 集成学习作业Task01

集成学习作业Task01作业1本文为Datawhale组队学习项目——集成学习的作业Task相关视频相关资料作业1第一问:通过代码验证aaa对于图像的形状没有影响,bbb则会根据b<0、b=0、b>0b<0、b=0、b>0b<0、b=0、b>0三种情况,出现三种图像。如下图所示。b>0b=0b<0作业2,采用牛顿法计算极值点,迭代500次,步长取0.1,代码:import numpy as npimport

2021-09-17 01:14:46 206

原创 Datawhale组队学习——数据分析入门(五)

Datawhale组队学习——数据分析入门(五)特征工程建模任务一:切割训练集和测试集任务二:数据建模任务三:输出模型预测结果模型评估交叉验证任务2 混淆矩阵任务3 ROC曲线本文为datawhale数据分析开源课程的学习笔记,课程链接使用的数据为kaggle上的泰坦尼克数据特征工程import pandas as pdimport numpy as np# 读取训练数集train = pd.read_csv('train.csv')train.shape对分类变量缺失值:填充某个缺

2021-07-21 23:51:27 525 1

原创 Datawhale组队学习——数据分析入门(四)

Datawhale组队学习——数据分析入门(四)数据可视化参考资料本文为datawhale数据分析开源课程的学习笔记,课程链接使用的数据为kaggle上的泰坦尼克数据数据可视化导入数据和包import numpy as npimport pandas as pdimport matplotlib.pyplot as plttext = pd.read_csv(r'result.csv')面对不同的需求,通常数据可视化的图案也不一致,常用的包括散点图、折线图、柱状图等,它们对应的作用如

2021-07-19 23:53:01 173

原创 Datawhale组队学习——数据分析入门(三)

数据分析入门(三)

2021-07-18 00:13:23 191 2

原创 Datawhale组队学习——数据分析入门(二)

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录

2021-07-15 18:07:34 204

原创 datawhale组队学习——数据分析入门(一)

数据分析入门(一)数据载入pandas 基础入门Seriesdataframe数据分析探索参考链接数据载入以kaggle上泰坦尼克的任务为例,数据链接导入numpy和pandasimport numpy as npimport pandas as pd载入数据路径# 绝对路径#df = pd.read_csv('E:/file/data_analysis/train.csv')#相对路径df = pd.read_csv('train.csv')#读取数据前三行df.head

2021-07-14 01:31:42 316

原创 faster-rcnn学习笔记

py-faster-rcnn源码学习笔记重要概念caffe-fast-rcnn代码源码:https://github.com/rbgirshick/py-faster-rcnn重要概念ROI (Region Of Interest) : 从目标图像中识别出的候选识别区域。ROI pooling :一个简化的spp池化,将原始图像的ROI变为固定的特征。RPN(Region Proposal Network): 区域生成网络 。它的作用是根据原图片卷积产生的feature map得到一系列的p

2021-04-17 16:26:33 198

原创 Datawhale组队学习——深度学习推荐系统(5)

深度学习推荐系统(5)Embeding &MLP的缺陷DIN特征模型结构Embeding &MLP基础模型DIN对于推荐系统的思考参考资料Embeding &MLP的缺陷我们之前所讲的模型,都有这样的特点:首先将大规模稀疏特征映射到Embedding,然后转换其维度后连接多层感知器(MLP),以此学习特征的非线性关系。这些方法的优点是显而易见的,能够减少大量的特征工程,同时取得很好的效果。因此在推荐系统领域非常流行。这类模型被DIN作者统称为Embeding &MLP但

2021-03-27 23:12:14 267

原创 Datewhale组队学习——深度学习推荐系统(4)

深度学习推荐系统(4)模型背景模型结构F(x)各层解析Embedding LayerBi-Interaction 层隐藏层输出层论文补充相比FM相比DeepCross参考资料模型背景web应用程序的变量大部分是离散的、非连续的。在稀疏的数据中建立模型,需要挖掘出特征之间的关联。很多成功的算法依靠手动进行特征组合,这类做法的缺点是成本很高,需要依靠大量人力进行设计,难以推广。因此,解决方案是设计专门自动学习特征的模型,代表模型FM。但FM本身基于线性模型,性能有限,所以需要更复杂的模型,于是,作者提出了N

2021-03-24 19:00:58 267

原创 Datewhale组队学习——深度学习推荐系统(3)

深度学习推荐系统(3)CTR问题背景——处理CTR问题的关键FM模型(Factorization Machines)DNN局限性DeepFM 模型思考题参考资料CTR问题CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content)。CTR是衡量互联网广告效果的一项重要指标。CTR点击率预估,是

2021-03-21 22:09:10 411

原创 Datewhale组队学习——深度学习推荐系统(2)

深度学习推荐系统(2)长尾分布Embedding的缺陷Memorization与GeneralizationWide & Deep 模型结构wide部分Deep部分结合一些问题的思考参考资料长尾分布长尾(The Long Tail),可以通俗地解释为:只要存储和流通的渠道足够大,需求不旺或销量不佳的产品共同占据市场的份额甚至可以和那些数量不多的热卖品所占据的市场份额相匹敌或更大。长尾分布说明那些不够热门的商品也有其自身的重要性。Embedding的缺陷基于Embedding的方式可能因为

2021-03-17 23:22:46 317

原创 Datewhale组队学习——深度学习推荐系统(1)

深度学习推荐系统(1)什么是推荐系统?什么是推荐系统?预测用户对物品的评分行为成为评分预测,评分预测模型通过对用户的历史物品评分记录进行建模,进而得到用户的兴趣模型,然后使用该模型预测用户未未见过商品的评分.评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算.对于测试集中的一个用户uuu和物品iii,令ruir_{ui}rui​是用户uuu对物品iii的实际评分,而rui^\hat{r_{ui}}rui​^​是推荐模型预测出的评分,那么RMSE可以定义为: RMSE=∑u,i

2021-03-16 23:32:19 791

原创 C++学习总结(一)

C++学习总结入门学习资源:https://www.bilibili.com/video/BV1QE41147RT?p=1入门C++程序开发过程1 算法设计2源程序编辑3编译4连接5运行调试重视文档,程序=代码+文档C++支持面向对象的观点和方法。面向对象把客观事物看作对象,对象间通过消息传送面向对象的基本概念:封装:隐蔽细节,对外形成边界,只保留有限的对外接口,使用方便、安全。继承:改造、扩展已有类多态:同样的信息作用在不同对象上有可能引起不同的效果。代码的运行过程:高级语

2021-03-08 10:58:50 1053

原创 python蓝桥模拟 晚会节目单

【问题描述】小明要组织一台晚会,总共准备了 n 个节目。然后晚会的时间有限,他只能最终选择其中的 m 个节目。这 n 个节目是按照小明设想的顺序给定的,顺序不能改变。小明发现,观众对于晚上的喜欢程度与前几个节目的好看程度有非常大的关系,他希望选出的第一个节目尽可能好看,在此前提下希望第二个节目尽可能好看,依次类推。小明给每个节目定义了一个好看值,请你帮助小明选择出 m 个节目,满足他的要求。【输入格式】输入的第一行包含两个整数 n, m ,表示节目的数量和要选择的数量。第二行包含 n 个整数,依次为每个节目

2021-02-15 23:39:21 312 2

原创 python序列记数

【问题描述】小明想知道,满足以下条件的正整数序列的数量:1. 第一项为 n;2. 第二项不超过 n;3. 从第三项开始,每一项小于前两项的差的绝对值。请计算,对于给定的 n,有多少种满足条件的序列。【输入格式】输入一行包含一个整数 n。【输出格式】输出一个整数,表示答案。答案可能很大,请输出答案除以10000的余数。【样例输入】4【样例输出】7【样例说明】以下是满足条件的序列:4 14 1 14 1 24 24 2 14 34 4【评测用例规模与约定】对于 20% 的评测用例,1 <= n

2021-02-15 20:46:55 274 3

原创 python 单词分段

小明对类似于 hello 这种单词非常感兴趣,这种单词可以正好分为四段,第一段由一个或多个辅音字母组成,第二段由一个或多个元音字母组成,第三段由一个或多个辅音字母组成,第四段由一个或多个元音字母组成。给定一个单词,请判断这个单词是否也是这种单词,如果是请输出yes,否则请输出no。def check(word): Vowel=['a', 'e', 'i', 'o', 'u'] check_num=[] for i in word: if i in Vowel:

2021-02-10 11:56:14 229 1

原创 Python 给定一个数列,请问数列中有多少个元素可能是递增三元组的中心

这里写自定义目录标题问题描述  在数列 a[1], a[2], …, a[n] 中,如果对于下标 i, j, k 满足 0<i<j<k<n+1 且 a[i]<a[j]<a[k],则称 a[i], a[j], a[k] 为一组递增三元组,a[j]为递增三元组的中心。  给定一个数列,请问数列中有多少个元素可能是递增三元组的中心。def is_increase(list): n=0 for i in range(1,len(list)-1):

2021-02-01 14:50:52 345 1

原创 (python) 在1至2019中,有多少个数的数位中包含数字9?

在1至2019中,有多少个数的数位中包含数字9?注意,有的数中的数位中包含多个9,这个数只算一次。例如,1999这个数包含数字9,在计算只是算一个数。num=0for i in range(1,2020): a=str(i) for s in a: if s=="9": num+=1 breakprint(num)结果:544...

2021-01-26 20:53:07 1458 1

原创 (python) 1200000有多少个约数(只计算正约数)

1200000有多少个约数(只计算正约数)a=1200000n=0for i in range(1,int(a**0.5)): if a%i==0: n+=2print(n)

2021-01-26 19:38:30 601

原创 李毅宏的机器学习作业6

李毅宏的机器学习作业5作业所需数据 akti作业参考答案

2020-09-25 15:15:19 577 1

原创 李毅宏的机器学习作业5

李毅宏的机器学习作业5作业要求Task1——Sailency Map作业所需数据 akti作业参考答案作业要求在作业三中我们使用CNN编写了一个食物分类器,本次作业在作业三的基础对神经网络做一个解释工作,共有四个具体的Task,下面一个个分析。Task1——Sailency Map...

2020-09-14 23:19:23 753

原创 目标检测算法总结(3)——Faster RCNN

目标检测算法总结(3)——Faster RCNN算法步骤RPN参考:在RCNN与Fast RCNN之后,它们的作者Ross又推出了“Faster RCNN”,进一步提升了速度与准确率,并在2015年的coco等多个竞赛中夺魁。算法步骤首先回顾下Fast RCNN的步骤:——在图像上使用Selective Search生成1k~2k个候选区域。——将图像输入网络得到相应的特征图,将SS算法生成的候选框投影到特征图上获得相应的特征矩阵。——将每个特征矩阵通过ROI pooling层缩放到7*7大小

2020-08-31 12:35:15 721

原创 目标检测算法总结(2)——Fast RCNN

目标检测算法总结(2)——Fast RCNN前言算法步骤参考前言R-CNN诞生后,深度学习在目标检测上的优势开始显示,于是各类应用深度学习的目标检测算法开始如雨后春笋般冒了出来,R-CNN的作者Ross Girshick不满足于已经取得的成就,在2015年发布了R-CNN算法的改进版——“Fast RCNN”,顾名思意比原来的“RCNN”快的多,根据作者的测试比较,在上PascalVoc数据集,训练速度提升9倍,测试速度提升213倍。准确率也有从62%到66%。那么Fast RCNN到底在RCNN上改

2020-08-30 09:37:18 886

原创 目标检测算法总结(1)——R-CNN

目标检测算法总结——R-CNN1 前言1 前言目标检测是人工智能里的一个传统领域,它的基本任务是图像识别并确定识别目标的基本位置。在2012年之前,目标检测所使用的传统方法主要分为三步:区域选择 、特征提取 、分类。这些传统方法有着耗时严重、产生过多冗余、鲁棒性差等缺点,使得整个目标检测发展较慢。2012年开始,深度卷积网络被应用到目标检测,取得了突破性进步,而R-CNN便是目标检测卷积网络中的第一个里程碑。R-CNN诞生在2013年,作者是Ross Girshick,对应的paper是《Rich f

2020-08-30 09:36:31 1051

原创 李宏毅的机器学习作业4

李宏毅的机器学习作业4作业任务数据处理one-hotword-embedding作业所需数据 akti作业参考答案作业任务本次作业是一个文本情感分析,训练文件中的句子被标记为“1”或“0”,分别对应句子的情感色彩是“负面”与“正面”。我们的任务就是训练出一个模型,从而能对"testing_data.txt"中的句子判断是0还是1。数据处理与图像不同,文本在深度学习中的输入方法不是唯一的,因为文本语言是非结构化的,而要将其输入到神经网络中,我们就需要赋予其一定的结构,其中最朴素的思想便是将每一

2020-08-24 00:10:16 1015

原创 李宏毅的机器学习作业3

李宏毅的机器学习作业3作业要求数据处理模型搭建作业所需数据 akti作业参考答案作业要求本次作业是一个图像识别任务,要将所给的食物图片分类,共有十一种,图片对应的食物编号在图片名字的前缀上。本此作业需要用到的是卷积神经网络cnn,以pytorch实现,由于任务较简单,所以使用的网络结构并不复杂。数据处理先总结一下对数据的处理步骤。读取文件,提取标签def readfile(path, label): # label 是一個 boolean variable,代表需不需要回傳 y 值

2020-08-19 23:41:48 1745

原创 李宏毅的机器学习作业笔记1+2

李宏毅的机器学习作业笔记1+2作业一作业要求作业要点作业二作业要求作业所需数据 ed4s作业参考答案作业一作业要求本此作业给出的数据是一份空气质量的检测资料,train.csv给出了整个2014年,每个月前20天的数据,这些数据包含了共计18个特征,在这些天每一个小时的变化。我们所需要的根据这些数据训练出一个模型,要求根据前九个小时的数据,预测出第10个小时的PM2.5。作业要点本此作业考察的是regression,模型本身很简单,并不是本此作业的重点,我认为本此作业的重点在于对数据的处理,

2020-08-19 12:35:35 605

原创 win10关闭自动更新的方法

win10关闭自动更新的方法gpedit.msc打不开的解决方法。本文将介绍关闭win10系统自动更新的方法。首先,快捷键win+r,在运行的框中输入 services.msc点击确定,进入服务管理窗口。在进入服务管理窗口后,找到Windows Update双击选择禁用在恢复的那一页,将选项都改为无操作。操作完这两步,还不能确保win10更新彻底关闭,需要再进行一步。快捷键win+r,输入 gpedit.msc,进入组策略编辑器。进入后,在计算机配置/管理模板/windows组件下,

2020-07-30 23:57:08 567

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除