自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Datawhale

一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。...

原创 互联网金融领域 数据挖掘赛事 Top2 方案分享

作者:王贺ID:鱼遇雨欲语与余简介:武汉大学硕士,2019年腾讯广告算法大赛冠军选手,京东算法工程师,一年内获得两冠四亚一季的佳绩。赛题背景资金流动性管理迄今仍是金融领...

2019-07-30 12:36:18

阅读数 249

评论数 0

转载 一文读懂神经网络(附解读&案例)

“你的大脑并不产生思想。你的思想塑造了神经网络。”——Deepak Chopra引文J. Nocedal y S. Wright, “Numerical optimiz...

2019-07-30 12:36:18

阅读数 110

评论数 0

原创 第8期Datawhale组队学习计划

第8期Datawhale组队学习计划马上就要开始啦 这次共组织15个组队学习,涵盖了AI领域从理论知识到动手实践的内容 按照下面给出的最完备学习路线分类,难度系数分为低、中、高三档,可以按照需要参加 Table of Contents 学习路线 基础知识 1. Python基础 2....

2019-07-30 09:45:47

阅读数 136

评论数 0

原创 大数据方向面试题目

1. 相同URL 题目: 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:估计每个文件的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 ...

2019-07-29 20:58:57

阅读数 277

评论数 0

原创 暑期组队学习计划

Datawhale暑期组队学习计划马上就要开始啦这次共组织15个组队学习涵盖了AI领域从理论知识到动手实践的内容按照下面给出的最完备学习路线分类难度系数分为低、中、高三档...

2019-07-29 09:39:57

阅读数 105

评论数 0

原创 大数据的相关技术(Technology)

本文主要展示解决海量数据问题的时候使用的技术,注意这是从技术角度进行分析,只是一种思想并不代表业界的技术策略。 常用到的算法策略. 分治:多层划分、MapReduce 排序:快速排序、桶排序、堆排序 数据结构:堆、位图、布隆过滤器、倒排索引、二叉树、Trie树、B树,红黑树 Ha...

2019-07-29 09:38:22

阅读数 245

评论数 0

原创 海量数据处理

常用技术概述 如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。 所谓海量数据处理,是指基于海量数据的存储、处理和操作等。因为数据量太大无法在短时间迅速解决,或者不能一次性读入内存中。 在解决海量数据的问题的时候,我们需要什...

2019-07-28 18:14:36

阅读数 213

评论数 0

原创 数据竞赛专题 | 从赛题理解到竞赛入门基础

为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞...

2019-07-28 12:42:07

阅读数 196

评论数 0

原创 高效学习方法论的学习笔记

Author:鲁力(地山) 0.前言与致谢 如何提高学习效率?这一问题长期以来都是网上讨论的热点话题,就这一问题网上很多大咖以书籍、博客、知乎回答、视频等不同形式都发表过自己的观点见解和方法论。笔者在过去两三年里断断续续记录了一些他们的观点和方法论,本文即是在自己的理解基础上对他们的观点做了一次...

2019-07-27 14:20:32

阅读数 429

评论数 0

原创 动态规划(DP)

动态规划(DP) 动态规划是面试中最常被问道的题目,但是一般情况下的都是常见的一些题目. 百度百科 wikipedia 1. 最长上升子序列 题目: 最长上升子序列问题是在一个无序的给定序列中找到一个尽可能长的由低到高排列的子序列,这种子序列不一定是连续的或者唯一的. 解析: dp[j]...

2019-07-27 13:49:22

阅读数 140

评论数 0

原创 敲门算法:和你一起学李宏毅

李宏毅*机器学习项目:王佳旭直播概要机器学习的误区?1.学习误区时间安排: 低学年/课业不重的同学可以充分利用假期的大块时间集中强化学习少功利,多真诚: ...

2019-07-27 09:35:20

阅读数 89

评论数 0

原创 搜索(Search)

search bfs 和 dfs的相关的题目 1. 全排列 题目: 给定一个数字列表,返回其所有可能的排列。 // premute(ans, nums, 0) void permute(vector<vector<int> > &ans, vector<i...

2019-07-27 09:09:17

阅读数 61

评论数 1

转载 特征工程系列:特征筛选的原理与实现(下)

0x00 前言我们在《特征工程系列:特征筛选的原理与实现(上)》中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现。本篇继续介绍封装式和嵌入式特征筛选的原理与...

2019-07-26 20:50:00

阅读数 50

评论数 0

转载 特征工程系列:特征筛选的原理与实现(上)

0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习...

2019-07-26 20:50:00

阅读数 179

评论数 0

原创 Datawhale专访 | 周涛:从窄门进最终走出宽路来

一种是看快实慢,他以为他走了一条快路,实际上很慢,一种则是看慢实快。有一句话是这么说的,我们从窄门进最终能走出宽路来。很多时候你看起来路好像很宽,实际上最后走的很窄,看起...

2019-07-25 19:09:03

阅读数 128

评论数 0

原创 从0到1构建数据科学竞赛知识体系,有夕,鱼佬,茂霖等竞赛大咖将特邀分享...

从0到1构建数据科学竞赛知识体系这是怎样的数据竞赛知识体系为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Da...

2019-07-24 21:57:10

阅读数 137

评论数 1

原创 Graph(图)

Graph(图) 在面试的过程中,一般不会考到图相关的问题,因为图相关的问题难,而且描述起来很麻烦. 但是也会问道一下常见的问题,比如,最短路径,最小支撑树,拓扑排序都被问到过. 图常用的表示方法有两种: 分别是邻接矩阵和邻接表. 邻接矩阵是不错的一种图存储结构,对于边数相对顶点较少的图,这种结...

2019-07-23 21:11:42

阅读数 509

评论数 2

原创 Coing-二叉树(bibary Tree)

二叉树(bibary Tree) 二叉树是面试中最容易被问道的问题,这里同样给出高频而且有代表性的10道题目。 二叉树介绍: 百度百科:二叉树 wikipedia: binary Tree 定义二叉树: struct TreeNode { int data; TreeNod...

2019-07-17 22:02:56

阅读数 74

评论数 0

原创 Coding-链表

linklist(链表) 链表也是面试中常问道的题目,链表定义简单很容易考察面试者的水平,比如在数组中很简单的题目转换成链表就有很大的变动。例如链表的插入和归并排序、查找倒数第k个节点等. 1.回文链表(234) 请判断一个链表是否为回文链表 class Solution(object): ...

2019-07-17 20:26:05

阅读数 43

评论数 0

原创 Coding-字符串

1.最长公共前缀 编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符串 “”。 示例 1: 输入: [“flower”,“flow”,“flight”] 输出: “fl” 示例 2: 输入: [“dog”,“racecar”,“car”] 输出: “” 解释: 输入不存...

2019-07-16 22:27:12

阅读数 46

评论数 0

转载 商业分析与数据分析、算法模型的关系与区别

我们常说,办事情要“名正言顺”,而数据领域的名字则是格外的多,商业分析、数据分析、数据挖掘、算法模型……经常把大家绕晕,今天系统科普一下。商业分析VS 数据分析广义上...

2019-07-16 11:54:20

阅读数 1056

评论数 0

原创 Coding-贪心

贪心算法 是每次只考虑当前最优,目标证明每次是考虑当前最优能够达到局部最优,这就是贪心的思想,一般情况下贪心和排序一起出现,都是先根据条件进行排序,之后基于贪心策略得到最优结果。 面试的时候面试官一般不会出贪心算法,如果可能贪心一般都可以使用动态规划解决,面试官很喜欢出动态规划的题目。 1. ...

2019-07-15 21:45:47

阅读数 89

评论数 0

原创 SVM优化对偶问题

Author: 修远; 说明:本文为Datawhale下开源项目《李宏毅机器学习》Support vector的补充内容。作者水平有限,还望学习者批评指正。 Datawhale 学习目标 优化实例 优化问题求解方式 等式优化问题—拉格朗日乘子法 不等式优化问题—KKT条件 ...

2019-07-14 22:17:02

阅读数 275

评论数 0

转载 重磅!《深度学习 500 问》已更新,GitHub 标星 2.6W(附完整下载)

几个月前,红色石头发文介绍过一份在 GitHub 上非常火爆的项目,名为:DeepLearning-500-questions,中文译名:深度学习 500 问。作者是川大...

2019-07-14 20:07:20

阅读数 85

评论数 0

原创 熵的概念理解

Author: 修远; 说明:本文为Datawhale下开源项目《李宏毅机器学习》决策树的补充内容。作者水平有限,还望学习者批评指正。 Datawhale 学习目标: 学习信息量计算,原理 学习信息熵 证明0⩽H(p)⩽logn0\leqslant H(p)\leqslant ...

2019-07-14 12:55:55

阅读数 523

评论数 0

原创 GIA张怡:关于小白入门AI算法工程师的直播分享

一、我是小白,怎么开始修炼之路?1.如何开始学习AI知识有目标的学习,从项目,从试验场景中找解决问题的方法,以实现某个问题为导向去学习。2.如何入门Just Do it!...

2019-07-13 12:07:15

阅读数 104

评论数 0

转载 竞赛大杀器xgboost,波士顿房价预测

经常出入DC竞赛、kaggle、天池等大数据比赛的同学应该很了解xgboost这座大山。几乎所有的比赛都绕不过它,可能只需要这一个库,在比赛中就可以得到很高的分数,究竟是...

2019-07-12 13:22:47

阅读数 285

评论数 0

原创 Datawhale x 科大讯飞 iFLYTEK A.I.开发者大赛重磅开启!

科大讯飞2019届iFLYTEK A.I.开发者大赛报名通道正式开启!自科大讯飞5月21日新品发布会上由执行总裁胡郁宣布大赛正式启动至今,已收到国内20多个省份及美国、加...

2019-07-09 12:25:26

阅读数 164

评论数 0

转载 高中就开始学的正态分布,原来如此重要

选自Medium作者:Farhad Malik,机器之心编译参与:李诗萌、张倩我们从高中就开始学正态分布,现在做数据分析、机器学习还是离不开它,那你有没有想过正态分布有什...

2019-07-09 12:25:26

阅读数 94

评论数 0

原创 Coding-排序(sort)

排序(sort) 排序的目的是让一组无序的对象变成有序(升序、降序),排序在面试中很容易被问道。排序之所以这么重要是因为排序是解决大部分问题的第一步,一些看似复杂的问题当数据有序的时候就变的简单,例如查找问题,如果数组有序可以使用搞笑的折半查找。 需要提出,这篇文章并不介绍排序,什么插入、冒泡...

2019-07-09 09:18:49

阅读数 122

评论数 0

原创 Coding-数组(Array)

数组(Array) 面试中最常见的就是围绕数组进行出题,主要原则数组可以随机读取,一般遇到数组相关的题目,都不是直观看到的那样。第一步暴力解法,第二步是否可以排序,是否可以二分,是否可以使用数据结构(哈希表,队列,栈等)。 要时刻注意一个数组中有两列数,一列是给定的数组的值,另一个是数组的...

2019-07-08 08:37:16

阅读数 46

评论数 0

原创 条件随机场CRF

Author: 李文乐; Email: cocoleYY@outlook.com Datawhale CRF简介 条件随机场(conditional random field,简称 CRF)是给定一组输入随机变量条 件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可...

2019-07-07 22:11:07

阅读数 114

评论数 0

原创 HMM

Author: 李文乐; Email: cocoleYY@outlook.com Datawhale 直观理解 马尔可夫链(英语:Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain,缩写为DTMC),因俄国数学家安德烈·马尔...

2019-07-06 18:07:16

阅读数 275

评论数 0

原创 评测指标(metrics)

评测指标(metrics) metric主要用来评测机器学习模型的好坏程度,不同的任务应该选择不同的评价指标, 分类,回归和排序问题应该选择不同的评价函数. 不同的问题应该不同对待,即使都是 分类问题也不应该唯评价函数论,不同问题不同分析. 回归(Regression) 均方误差(MSE) ...

2019-07-05 21:06:45

阅读数 22783

评论数 10

原创 朴素贝叶斯(NaïveBayes)

Author: Silly_0903; Datawhale NaïveBayes简介 基于贝叶斯方法,通过先验概率,计算并选择最大的后验概率。 核心公式 P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)...

2019-07-05 10:21:33

阅读数 104

评论数 0

原创 支持向量机(SVM)

SVM简介 SVM,Support Vector Machine,它是一种二分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 这里涉及了几个概念,二分类模型,线性分类器,间隔最大化,凸二次规划问题。 ...

2019-07-05 00:25:13

阅读数 181

评论数 0

原创 Auto Machine Learning 自动化机器学习笔记

⭐适读人群:有机器学习算法基础1. auto-sklearn 能 auto 到什么地步?在机器学习中的分类模型中:常规 ML framework 如下图灰色部分:导入数据...

2019-07-04 19:00:00

阅读数 90

评论数 0

原创 K近邻(kNN)

K近邻(kNN)简介 k近邻方法是一种惰性学习算法,可以用于回归和分类,它的主要思想是投票机制,对于一个测试实例xjx_jxj​, 我们在有标签的训练数据集上找到和最相近的k个数据,用他们的label进行投票,分类问题则进行表决投票,回归问题使用加权平均或者直接平均的方法。 整体介绍 正所谓物...

2019-07-04 09:24:04

阅读数 128

评论数 0

原创 协同过滤(collaborative filtering)

Author: Summer; Email: huangmeihong11@sina.com Datawhale 协同过滤简介 协同过滤是推荐算法中最常用的算法之一,它根据user与item的交互,发现item之间的相关性,或者发现user之间的相关性,进行推荐。 比如你...

2019-07-03 00:26:16

阅读数 224

评论数 0

转载 优秀工程师至关重要的一项技能,你解锁了吗?

来源丨阿里技术官方公众号(ID:ali_tech)导读:很多程序员在工作一段时间后会遇到迷茫期,虽有技术傍身,也难免会产生焦虑,反复思考怎样才能快速成长。关于如何提高自己...

2019-07-02 12:12:00

阅读数 88

评论数 0

提示
确定要删除当前文章?
取消 删除