自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 打印队列笔记

原视频课程案例:一个实验室,在任意的一个小时内,大约有10名学生在场,这一小时中,每人会发起2次左右的打印,每次1~20页打印机的性能:以草稿模式打印的话,每分钟10页,以正常模式打印的话,打印质量好,但速度下降为每分钟5页。过程:生成和提交打印任务确定生成概率:实例为每小时会有10个学生提交的20个作业,这样,概率是每180秒会有1个作业生成并提交,概率为每秒1/180。确定打印页数:实例是1~20页,那么就是1~20页之间概率相同。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存

2021-03-27 11:35:00 462

原创 CS231n Assignment1, KNN, SVM

KNN的部分我录了视频其中矩阵乘法的公式推导如下:SVM1.基础解法2.矩阵解法def svm_loss_vectorized(W, X, y, reg): """ Structured SVM loss function, vectorized implementation. Inputs and outputs are the same as svm_loss_naive. """ loss = 0.0 dW = np.zeros(W.

2021-03-16 12:14:58 214

原创 wide & deep模型

1. 点击率预估简介点击率预估是用来解决什么问题?点击率预估是对每次广告点击情况作出预测,可以输出点击或者不点击,也可以输出该次点击的概率,后者有时候也称为pClick.点击率预估模型需要做什么?通过上述点击率预估的基本概念,我们会发现其实点击率预估问题就是一个二分类的问题,在机器学习中可以使用逻辑回归作为模型的输出,其输出的就是一个概率值,我们可以将机器学习输出的这个概率值认为是某个用户点击某个广告的概率。点击率预估与推荐算法有什么不同?广告点击率预估是需要得到某个用户对某个广告的点击率,然后

2020-10-27 16:40:46 334

原创 DW FM打卡

这个好像少文件

2020-10-25 19:48:34 322

原创 dw推荐task02协同过滤

simuv=cos(u,v)=u⋅v∣u∣⋅∣v∣sim_{uv} = cos(u,v) =\frac{u\cdot v}{|u|\cdot |v|}simuv​=cos(u,v)=∣u∣⋅∣v∣u⋅v​[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0XujFdPm-1603351902804)(my.assets/image-20201022144149663.png)]sim(u,v)=∑i∈I(rui−rˉu)(rvi−rˉv)∑i∈I(rui−rˉu)2∑i∈

2020-10-22 15:32:04 259

原创 ipython-no_module

cmd修改cmd默认路径一般windows默认路径是c:\user,这里先修改默认路径,方便后续操作。打开cmd所在位置。点击右键,选择属性。把起始位置修改成你想的位置即可。sys.path.append[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wEo5eSn2-1603166398681)(image-20201020113900904.png)]我在Anaconda新建了一个环境叫rl,用来装强化学习的包(gym, PyTorch等),

2020-10-20 12:06:45 627 6

原创 Task1推荐系统简介

Gini Coeficient:基尼系数定义覆盖率注意这里的基尼系数是经济学的概念,参加维基百科,和我们机器学习的不一样,后者更常被称为gini impurity.关于基尼系数的具体内容,这篇博客讲的比较比较清楚了,注意横坐标,是个数,比如经济学中,100个人,按年收入从小到大排序,10人分1bin,那么min的10人加起来的总收入最低,也就是第一个bin的值,max的10人加起来总收入肯定最大,所以总体就是这样一个梯度越来越陡曲线。而此曲线和“/”围成的面积就是A。计算主要是用梯形近似去求解。微

2020-10-19 17:57:45 227

原创 信息熵,互信息

条件熵互信息

2020-10-19 13:30:43 216

原创 t1dw风控赛题ROC曲线理解

赛题金融风控中的个人信贷贷款申请人的数据信息 预测 其是否有违约的可能,以此判断是否通过此项贷款 分类问题评价指标PR曲线ROC曲线的理解有录视频讲这个,发群里了,但是讲的一般,不高兴重录了,懒得发…金融评分表onenote转不过来,复制黏贴就是图片orz。。特征业务意义Label:isDefaulted 是否违约installment 分期付款金额 是本金加利息?每月要还的吗?verificationStatus 验证状态?dti 债务收入比 (amo

2020-09-15 07:37:52 396

原创 task9文件与文件系统

带dw-python的均为datawhale-python教程目录1. 文件与文件系统打开文件文件对象方法简洁的 with 语句2. OS 模块中关于文件/目录常用的函数3. 序列化与反序列化**练习题**:1. 文件与文件系统打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OS

2020-08-03 16:08:10 194

原创 dw-python模块 datetime

模块在前面我们脚本是用 Python 解释器来编程,如果你从 Python 解释器退出再进入,那么你定义的所有的方法和变量就都消失了。为此 Python 提供了一个办法,把这些定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块(Module)。模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 Python 标准库的方法。1. 什么是模块容器 -> 数据的封装函数 -> 语句的封装

2020-08-03 10:19:41 524

原创 dw-python-函数与Lambda表达式

和之前的文章一样,是参加datawhale python学习的打卡。内容较乱懒得整理函数的调用def printme(str): print(str)printme("我要调用用户自定义函数!") # 我要调用用户自定义函数!printme("再次调用同一函数") # 再次调用同一函数temp = printme('hello') # helloprint(temp) # Nonedefault argument形参和实参的绑定关系,只在函数调用时才会生效、绑定,调用结束

2020-08-01 10:27:25 446

原创 字典、集合、序列

字典用程序解答下面的题目字典的长度是多少请修改’java’ 这个key对应的value值为98删除 c 这个key增加一个key-value对,key值为 php, value是90获取所有的key值,存储在列表里获取所有的value值,存储在列表里判断 javascript 是否在字典中获得字典里所有value 的和获取字典里最大的value获取字典里最小的value字典 dic1 = {‘php’: 97}, 将dic1的数据更新到dic中#字典的长度是多少print(le

2020-07-29 15:58:31 389

原创 什么是 TF-IDF 算法?

这里写目录标题什么是 TF-IDF 算法?概念例子2TF-IDF 的4个变种变种1:通过对数函数避免 TF 线性增长用 Log,也就是对数函数,对 TF 进行变换,就是一个不让 TF 线性增长的技巧。变种2:标准化解决长文档、短文档问题**变种3:对数函数处理 IDF实例1笔算实例2 笔算+机算优点缺点代码python简易实现待更新 Sklearn的tfidf....TF-IDF 的历史什么是 TF-IDF 算法?简单来说,向量空间模型就是希望把查询关键字和文档都表达成向量,然后利用向量之间的运算来进.

2020-07-25 22:46:27 1163

转载 05. 异常处理

异常处理异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型,某种错误引发对应的异常时,异常处理程序将被启动,从而恢复程序的正常运行。1. Python 标准异常总结BaseException:所有异常的 基类Exception:常规异常的 基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值运算超出最大限制ZeroDivision

2020-07-24 13:18:29 204

原创 循环语句

whilewhile语句最基本的形式包括一个位于顶部的布尔表达式,一个或多个属于while代码块的缩进语句。while 布尔表达式: 代码块while循环的代码块会一直循环执行,直到布尔表达式的值为布尔假。如果布尔表达式不带有<、>、==、!=、in、not in等运算符,仅仅给出数值之类的条件,也是可以的。当while后写入一个非零整数时,视为真值,执行循环体;写入0时,视为假值,不执行循环体。也可以写入str、list或任何序列,长度非零则视为真值,执行循环体;否则视为假值

2020-07-23 11:50:58 287

原创 变量、运算符、数据类型

# 单行注释“”"多行注释“”"2.2三元运算符:do sth1 if condition else do sth2运算顺序变量变量需先赋值,再使用?变量名不能以数字开头。变量名大小写敏感。变量的内存地址 和值? 不可变类型 is, is not 和 ==,!= 等价可变类型 两者有区别。?变量的内存地址 和值数据类型与转换type()dir() 查看其属性与方法?什么叫bit_length2.4bool(X)X 基本类型(除了0,0.0) 都是TrueX

2020-07-19 20:07:24 299

原创 CS224n笔记:contextual word representation

之前的Word Representation方法,Word2Vec, GloVe, fastText等对每个单词仅有一种表示,而通常单词的含义依赖其上下文会有所不同,而且每个单词不仅有一方面特征,而应有各方面特征如语义特征,语法特征等,这一讲集中讨论contextual word representation,主要比较了ELMO,GPT与BERT模型。ElmoL层forward LSTM每层会产生一个依赖于上文的表示h→k,jLM\overrightarrow{\mathbf{h}}_{k, j}^{L

2020-07-02 15:41:58 369

转载 4. 方差分析

方差分析1 概要方差分析(Analysis of variance, ANOVA) 主要研究分类变量作为自变量时,对因变量的影响是否是显著的。方差分析的方法是由20世纪的统计学家Ronald Aylmer Fisher在1918年到1925年之间提出并陆续完善起来的,该方法刚开始是用于解决田间实验的数据分析问题,因此,方差分析的学习是和实验设计、实验数据的分析密不可分的。实验设计和方差分析都有自己相应的语言。因此,在这里我们通过一个焦虑症治疗的实例,先了解一些术语,并且思考一下,方差分析主要用于解决

2020-06-30 21:17:07 1453

原创 Subword模型

之前的Neural Machine Translation基本上都是基于word单词作为基本单位的,但是其缺点是不能很好的解决out-of-vocabulary(OOV即单词不在词汇库里)的情况,且对于单词的一些词法上的修饰(morphology)处理的也不是很好。中文是不带空格分隔的。一个自然的想法就是能够利用比word更基本的组成来建立模型,以更好的解决这些问题。OOV(未登录词)网络流行词:专业词汇:NER词汇:解决方法:新词发现Character-Level Model一种思路是将字

2020-06-30 10:44:07 712

原创 joyfulpandas-第9章 时序数据

害,前阵子打M5,都是在处理时序,用的都是rolling + transform其实会用shift(x) 做lag

2020-06-29 19:27:16 145

原创 joyful-pandas 分类变量 categories

order总之就是,↓黄色的是值,红色的才是类别

2020-06-28 09:27:57 232

原创 常见分布与假设检验

分布指数簇分布 (来源b站白板推导)没时间学习,水一下打卡

2020-06-27 21:08:55 192

原创 CS224n作业

2020-06-24 12:29:52 359

原创 Word2Vec

Related PaperNNLMRNNLM

2020-06-24 11:59:41 80

原创 Pandas条件查询 apply

原github原课程条件查询视频中8:27,他说,这个df是行的series,传入lambda,我感觉这里他说错了,还是dfdf.apply方法Apply a function along an axis of the DataFrame.Objects passed to the function are Series objects whose index is either the DataFrame’s index (axis=0) or the DataFrame’s co

2020-06-17 13:07:19 479

原创 dw机器学习SVM

比赛还有3天ddl 实在没空水一下 啃一下老本“你学了3遍SVM了,你应该会SVM了”(然而并不会,我这写的是啥我已经完全不记得了,(可能当时就不懂吧,以后再看吧55555))smo一直不会,收藏了一篇博文,以后在学了大概学了3遍SVM好像还是不太会一般说SVM有三宝:对偶 间隔 核技巧感知机这里先写一下感知机,感觉两者有丢丢像拉格朗日对偶性这一块到现在也不是很掌握...

2020-05-01 17:37:20 707

原创 dw机器学习 HMM CRF

有个比赛要due了,没空学习,啃下老本,这块的内容真是又多又难阿,不懂5555HMM概率图模型HMM基本假设HMM两个空间 三组参数HMM的三个基本问题概率问题计算维特比算法CRF不会阿太忙了 来不及学 还有个拟牛顿法的推导,不截图了...

2020-04-29 17:38:12 228

原创 DWML EM算法 GMM

###概述EM本质思想和聚类差不多,但是后者无法给出某个样本属于该簇的后验概率。主要用到的技巧是E步估计,M步最大,反复迭代;jensen不等式。硬币的例子之前讲的 讲的不是很好(-_-||)混合高斯分布 例子引入Recall MLE例子####Jensen不等式从图像角度理解整体框架...

2020-04-25 20:16:21 694 1

原创 Naive Bayes MLE MAP

2020-04-23 22:08:33 202

原创 正定半正定hessian矩阵convex optimization

semi : A>=0 半正定

2020-04-21 22:14:05 2666

转载 Cousera Sequence,Time Series and PredictionWK1

本文内容为Cousera,deepAI, Tensorflow in practise的笔记,原视频地址Time series examplesIt’s typically defined as an ordered sequence of values that are usually equally spaced over time.Univariante.g.stock pric...

2020-04-20 12:29:16 548

转载 c语言实现两个矩阵相乘

#include<stdio.h>#include<stdlib.h>#define M 3 int main(void){ int i,j,k,matrix1[M][M],matrix2[M][M],row1=M ,col1=M ,row2=M,col2=M,matrix[M][M]; /*为需要相乘的两个矩阵赋值:*/ prin...

2020-04-19 22:57:28 6613

原创 DataWhale机器学习task01线性模型

我还想把上次的pytorch复习下呢 那里backpropagation一直有个地方不懂

2020-04-19 19:42:54 420 1

原创 DwX天池-Task5 模型融合

总体来说,和xgboost,gbdt差不多,就是bagging,boosting,stacking几种方法?简单说,就是几个模型投票,residual,堆叠。。的感觉。。但是具体,没整明白。似乎,似乎是每个模型调好参,再整一起,还可以叠一起的意思?我还准备加个catboost,还没成功,各种buging。。。def build_model_lgb(train_X,train_y): ...

2020-04-04 21:51:32 261 1

原创 DatawhaleX天池二手车Task4:建模与调参

XGBoost手推算法-贪心学院李文哲老师直播公开课笔记讲座重点讲解XGBoost算法技术细节,从目标函数的构建、泰勒近似、树的参数化和树结构的构建,以下是听课记录参考公众号《ML学习总结》整理出的笔记。将多个弱学习器模型组合在一起通常可以产生更强大的模型,这是集成模型的主要思路,集成模型有bagging,boosting,stacking等。以上Bagging的流程中,弱学习器相互独立训练...

2020-04-01 13:28:59 270

原创 DW天池二手车task02特征工程

原from sklearn.preprocessing import impute改为from sklearn.impute import SimpleImputer

2020-03-26 11:20:50 197

原创 DW二手车Task01&02赛题理解EDA

X-mind赛题理解Comparison of KFold vs. GroupKFold vs. MultilabelStratifiedKFold评估指标平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(...

2020-03-24 20:14:06 584

原创 环境搭建

0 环境搭建基础概念主要内容:Jupyter kernels are disconnected from Jupyter’s shellthe shell environment and the Python executable are disconnectedPython executable has its own site-packages:meaning when you in...

2020-03-17 13:23:51 153

原创 Task07:优化算法进阶;word2vec;词嵌入进阶

优化算法进阶momentumAdaGradAdaDeltaRMSPropAdamReviewEMT= exponential moving averageAdam 约等于RMSprop + Momentum

2020-02-25 11:00:11 165 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除