- 博客(21)
- 资源 (1)
- 收藏
- 关注
原创 新闻推荐_多路召回
多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。上图只是一个多路召回的例子,也就是说可以使用多种不同的策略来获取用户
2020-12-01 09:23:04 284
原创 DW_新闻推荐_task02_数据分析
数据分析:下面的这张图生动的描述了机器学习与深度学习的区别:特征提取我们做一个新任务,需要利用我们的知识和工具进行进行探索。就像让你去景岗山打老虎,你需要做好准备,比如带上攻击武器,带上地图,带上跌打药,需要分析老虎可能出没的地方等等。同样的,做机器学习任务,数据的理解、清洗是第一步,十分重要!本期的主题是“新闻”推荐,所以新闻本身作为首要的特征是需要重点关注的。一共有多少个文章主题文章的被点击的分布状况? (最常见的分为热门,冷门)用户对文章的点击分布情况? (有的人很关注新闻,热门、冷门
2020-11-27 22:29:33 260
原创 新闻推荐-task01 baseline
DataWhale 新闻推荐学习第一课,赛题理解与baseline下面是阿里的天池比赛入口。零基础入门推荐系统 - 新闻推荐让代码跑起来的法门:step 1, 如下图所示下载数据集到本地。在DataA1121.md 里面有数据下载的网络地址。直接复制到浏览器里面即可下载。step2, 在本地Pycharm 里面新建Project. 然后再项目文件夹里面新建文件夹data_raw, temp_results 。 将第一步下载的数据集放到data_raw 文件夹下面。step3, 根据学习
2020-11-25 21:57:50 222
原创 模型融合
一、Stackingstacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。如下图 假设有五个基学习器,(注,这里的5个基学习器已经训练好) , 将原始数据(设特征维度N)输入到五基学习器中,并得到预测结果输入到模型六中。注意:由下面图可以看出,模型六的输入是5个基模型的预测结果stackIng。也即,模型六的输入特征维度为5。 N理论应该大于5. 这里类似于CNN的迁移学习过程,固定已训练好模型的的特征提取网络参数,然后训练最后的全连接层(Linear)。这里,这种
2020-09-27 22:58:13 426
转载 LightGBM
今天在学习的时候由Datawhale 推荐一篇LightGBM的模型介绍博客写得非常棒。加之我今天的笔记也没有更好的内容来记录,所以就索性转载一波优秀的博客!!声明: 本文内容转载自白话机器学习算法理论+实战番外篇之LightGBMLightGBM, 2017年由微软提出,是GBDT模型的另一个进化版本, 主要用于解决GBDT在海量数据中遇到的问题,以便更好更快的用于工业实践中。从 LightGBM 名字我们可以看出其是轻量级(Light)的梯度提升机器(GBM), 所以面对大规模数据集,它依然非常淡定
2020-09-25 22:04:37 282
翻译 金融风控_03_特征工程
Datawhalechina-team-learning-data-mining本文摘录自特征工程,是机器学习,甚至是深度学习中最为重要的一部分,在实际应用中往往也是所花费时间最多的一步,所以无论如何要深入理解和学习。特征工程涉及到下面的内容:1、数据预处理 1.1 缺失值的填充 -->用0,即特征对于结果没有作用。 -->特征前(后)面的值替换, 利用特征的已出现的值进行替换,而不是一个毫无意义的值。 1.2 时间格式处理 1.2.1 把 1
2020-09-21 23:01:43 121
原创 金融风控_02_数据分析
第二天打卡:关于pd.read_csv(root_dir, nrows =5, chunk_size = 5 )#设置chunksize参数,来控制每次迭代数据的大小chunker = pd.read_csv("./train.csv",chunksize=5)for item in chunker: print(type(item)) #<class 'pandas.core.frame.DataFrame'> print(len(item))这里关于nro
2020-09-18 19:13:46 162
原创 金融风控--task01_赛题理解
Oh My God, 这是第4次参加Datawhale 组织的开源学习了,很感激。组织二维码如下,如果有兴趣的朋友可以添加关注公众号!这一次打以这种比赛的方式进行学习,很期待!话不多说,进入主题!!!!1、赛题数据理解。1.1 要求,以个人信贷为背景,根据背景信息预测其是否有违约的可能。典型的分类任务,且输出违约的可能性。1.2 评价标准:提交结果为每个样本是1的概率。评价方法为AUC评估(越大越好)。AUC(Area Under Curve) AUC(Area Under Curve)被
2020-09-15 12:18:40 339
原创 Task03_SVM
SVM, 这里还是推荐阿泽的读书笔记。里面的内容写得很细。我还在理解当中。SVM 超详细在下面模型得可视化中。w参数由于是2维张量,所以需要在SVC.coef_ 后面加[0]表示取第一维。这里得问题点是:在可视化得时候,这里在得到W参数后,a1 为什么要是W[0]/W[1]??这是因为在二维平面上,我们考虑得决策边界得时候,为了方程的简写方便,写为了W^TX + B = 0. X为向量(X1,X2),这里X2就应该是Y。 所以我们求得的参数W[1]就应该是y的系数。 为了画图方便就需要把y的系数变
2020-08-26 22:47:16 119
原创 机器学习--决策树
首先需要安装的几个包:pip install python-graphvizpip install seaborn带着问题学习,事半功倍。1、决策树ID3,C4.5, CART的区别2、掌握Bagging 和Boosting3、掌握随机森林,XGBoost原理4、随机森林,XGB,LGB的各自区别5、GBDT和XGB的区别。决策树在现在的相亲或者择偶额过程中,下面的这种方式就是人的决策过程。而这种过程用图的形式表达出来就像一颗倒着的树的形状。所以这种结构就叫做决策树。观察这个决策流程
2020-08-22 20:55:59 155
原创 机器学习--Logistic Regression(逻辑回归)---分类器
1. 回归与分类的区别回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。2. 逻辑“回归”Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强
2020-08-20 23:03:15 1732
原创 Task_09_文件系统。
简洁的 with 语句with语句的工作原理enter()/exit()这两个方法with后面返回的对象要求必须有这两个方法,而文件对象f刚好是有这两个方法的。object.enter(self)进入与此对象相关的运行时上下文。with语句将将此方法的返回值绑定到语句的AS子句中指定的目标(如果有设置的话)object.exit(self, exc_type, exc_value, traceback)退出与此对象相关的运行时上下文。参数描述导致上下文退出的异常。如果上下文运行时没有异常发生,
2020-08-08 17:53:36 89
原创 Task08_模块与datetime
关于交换字典的Key 和 Value 的方法:第一种,新建一个字典,通过获取key, value后直接交换赋值。dict_ori = {'A':1, 'B':2, 'C':3}dict_new = {value:key for key,value in dict_ori.items()}第二种,利用内置迭代器zip 函数, 新建字典,通过直接获取原字典的Value, Key.dict_ori = {'A':1, 'B':2, 'C':3}dict_new2= dict(zip(dict_ori
2020-08-07 19:13:09 109
原创 Task_07类、对象和魔法方法
在谈到类于对象就必然少不了面向对象是编程的基本概念。如下片段摘自百度百科,面向对象编程(Object OrientedProgramming,OOP,面向对象程序设计)的主要思想是把构成问题的各个事务分解成各个对象,建立对象的目的不是为了完成一个步骤,而是为了描叙一个事物在整个解决问题的步骤中的行为。面向对象程序设计中的概念主要包括:对象、类、数据抽象、继承、动态绑定、数据封装、多态性、消息传递。通过这些概念面向对象的思想得到了具体的体现。面对对象程序设计是尽可能地在模拟人类的思维。通过这样的方式能
2020-08-05 18:34:01 257
原创 Task06_函数_lambda
关于Sorted 与 sort:sorted() 函数对所有可迭代的对象进行排序操作。sort 与 sorted 区别:sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行排序操作。list 的 sort 方法返回的是对已经存在的列表进行操作,无返回值,而内建函数 sorted 方法返回的是一个新的 list,而不是在原来的基础上进行的操作。语法sorted 语法:sorted(iterable, cmp=None, key=None, reverse=Fal
2020-08-02 21:59:57 1033
原创 Task_05_关于字典,集合,序列
这几天工作太忙了,这次得打卡先简单完成一个作业。剩下的明天补上。有一个字典,保存的是学生各个编程语言的成绩,内容如下data = {‘python’: {‘上学期’: ‘90’, ‘下学期’: ‘95’},‘c++’: [‘95’, ‘96’, ‘97’],‘java’: [{‘月考’:‘90’, ‘期中考试’: ‘94’, ‘期末考试’: ‘98’}]}各门课程的考试成绩存储方式并不相同,有的用字典,有的用列表,但是分数都是字符串类型,请实现函数transfer_score(score_di
2020-07-31 22:43:52 171
原创 列表及相关知识Task04
Task 04 列表及相关操作容器器数据类型,有以下四种。列表<class 'list'>元组<class 'tuple'>字典<class 'dict'>集合<class 'set'>字符串<class 'str'>这里有必要扩展一下python中的容器。容器:容器是一种把多个元素组织在一起的数据结构,容器中的元素可以逐个地迭代获取,可以用in, notin关键字判断元素是否包含在容器中。这里的容器于我们常理解的Do
2020-07-27 22:34:14 107
原创 datawhalechina 学习任务之 异常处理
第三次打卡:之前学习看过python相关的书,完整的看过。但是实际敲入的代码比较少。所以代码是,看十遍不如动手敲一遍。奉劝广大朋友,代码只有不停的敲和查找错误才能成长,才能充分理解。代码是需要理解而不是记忆。打卡内容如下: 在敲代码的过程中,print( )函数没有加end=’ ',所以在输入数字的时候会自动到第二行,原因时Print() 函数的end符默认是**‘\n’**。这里有另外一个细节。try …except如果在try 后面发生的错误并不在except列举的错误类别里面时,
2020-07-24 18:29:04 129
原创 datawhale学习记录第二次任务
学习内容,条件语句与循环语句今天也是有些忙碌,工作原因出差,没办法电脑上学习与做作业。立即手机下载了csdn,下载python的ide。不得不说现代的手机真的是万能的。话不多说,先上任务运行图。第一作业比较简单的利用循环与判断语句就可以了。第二个题目就比较费事一点。在学习的过程发现如下图所示。如果不加break,会便利所有非质数的因式分解。同时也会打印出这个数是一个质数。如何才能让分解能答应完整,又不输出 16是一个质数。 明天研究吧...
2020-07-23 23:28:07 81
原创 DatawhaleChina_Learing_Course1
[ ]前言: 首先说明一下DataWhale 这个组织。 Datawhale组织网站----https://datawhale.club/ , 以下内容摘自 “CSDN博主「Datawhale」的原创文章 ”(原文链接:https://blog.csdn.net/Datawhale/article/details/85100466)Datawhale是一个专注于AI领域的开源组织,致力于构建一个纯粹的学习圈子,帮助学习者更好地成长。我们专注于机器学习,深度学习,编程和数学等AI领域.
2020-07-22 19:50:00 130
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人