- 博客(19)
- 收藏
- 关注
原创 一番星大厂面试经验分享第一弹
点击上方蓝字,订阅关注我们!前言感谢一番星汇总本次的面试经验,给出了部分面试问题的答案,希望更多人能从中收益,不断积累经验,在面试中优异表现,斩获更多大厂offer,成为offer收割机!也欢迎更多的人联系我投稿,让更多人学习到你的经验与建议。阿里菜鸟(机器学习)-1 面-电话面试1.如何在海量数据(向量维度很高)中查找给定部分数据最相似的top200向量?A:由于之前了解过其他面试蚂蚁金服的朋友,也有问到这个题目的,所以反应比较快,直接就说可以用KD树、聚类、h...
2021-04-10 20:43:20 183
原创 一番星汇总的大厂面试经验分享第二弹
一番星汇总的大厂面试经验分享第二弹原创一番星ChallengeHub前言大家好,这里是一番星的大厂面试经验分享第二弹,平时没事的时候,喜欢写一些自己的学习经验汇总,方便自己理解与后面的复盘,当然分享出来能帮助到一些同学,就更好啦!其实,面试中,目前主流模型虽然很重要,但是一旦简历中写了熟悉传统机器学习相关方法原理,可能会被面试官持续深挖下去,下面的面试就是这种情况。百度机器学习-1面-现场1.项目中用到了聚类?能手写一下Kmeans吗?2.能够详细讲解T...
2021-04-10 20:39:45 198
原创 小贝万文长字带你详谈Transformer
transformerGoogle 在 2017 年提出了基于注意力机制的网络结构 Transformer,进一步在机器翻译效果上取得显著提升。Transformer 结构的核心创新点在于提出了多头自注意力机制(multi-head self-attention),一方面通过自注意力将句中相隔任意长度的词距离缩减为常量,另一方面通过多头结构捕捉到不同子空间的语义信息,因此可以更好地完成对长难句的编码和解码。由于 Transformer 完全基于前馈神经网络,缺少了像卷积神经网络和循...
2021-03-28 22:12:57 497
原创 【小贝出品】定制你的对话机器人 - 基于RASA搭建
【小贝出品】定制你的对话机器人 - 基于RASA搭建源代码 Hands on Setting Up Develop EnvironmentOpen Custom Connector MoreConcept 工程上的处理 Tracker Store Event Broker Model Storage Chitchat and FAQs Asignment 自己的机器人,并且使用active serve去实现对话机器人天气查询功能 RASA W...
2021-03-21 20:44:03 2033
原创 强化学习教程(四):从PDG到DDPG的原理及tf代码实现详解
强化学习教程(四):从PDG到DDPG的原理及tf代码实现详解原创 lrhao 公众号:ChallengeHub收录于话题#强化学习教程前言在前面强化学习教程(三)中介绍了基于策略「PG」算法,相比较DQN算法,PG是一种学习连续行为控制策略的方法,通过概率分布分布函数π,来表示每一步的最优策略,在每一步根据该概率分布进行action采样,获取当前最佳的action取值,即:生成action的过程,本质是一个随机过程,最后学习到的策略,也是一个随机策略(stochastic polic)。
2021-03-14 11:47:01 1216
原创 “梧桐杯”中国移动大数据应用创新大赛-智慧城市赛道baseline0.827(纯代码+详细注释)
“梧桐杯”中国移动大数据应用创新大赛-智慧城市赛道baseline0.827(纯代码+详细注释)公众号:ChallengeHub原创枵央01 前言感谢作者「枵央」开源,为国内的开源精神点赞,本次赛题开源的特征较少,采用xgb、rf模型融合,具体开源内容见开源方案(附有详细代码注释)。02 赛题链接https://js.dclab.run/v2/cmptDetail.html?id=46403 竞赛奖项 复赛: 所有获奖选手颁发证书与奖...
2021-03-07 13:31:04 2113 3
原创 浅谈Single-Pass算法
浅谈Single-Pass算法原创 致Great ,公众号: ChallengeHubSingle-Pass算法又称单通道法或单遍法,是流式数据聚类的经典方法。对于依次到达的数据流,该方法按输入顺序每次处理一个数据,依据当前数据与已有类的匹配度大小,将该数据判为已有类或者创建一个新的数据类,实现流式数据的增量和动态聚类,适合对流数据进行挖掘,而且算法的时间效率高;不足之处主要表现在该方法具有输入次序依赖特性,即对于同一聚类对象按不同的次序输入,会出现不同的聚类结果。01. Single-Pass算法基
2021-02-28 10:50:58 3969
转载 [转]NLP关键词提取方法总结及实现
[转]NLP关键词提取方法总结及实现公众号 ChallengeHub最近在研究关键词的提取算法,看到一篇关于关键词提取算法的总结,比较全面了,在这里分享给大家,希望能够帮助同学们~原文链接:https://blog.nowcoder.net/n/ac016f8256f54c4b8c8784e99bccf28a(ps:作者同意转发,如果想了解更多,请阅读全文)目录关键词提取概述TF-IDF关键词提取算法及实现TextRank关键词提取算法实现LDA主题模型关键词提取算法及实现
2021-02-27 23:11:50 631
原创 浅谈Entity Embedding
浅谈Entity Embedding原创 致Great ,公众号:ChallengeHub“万物皆可Embedding”现实生活或者比赛中,我们会经常见到表格数据,其中包含了各种类别特征。本文将简单介绍利用神经网络来表示类别特征的方法-Entity Embedding,这个方法首先出现在kaggle上的《Rossmann Store Sales》中的rank 3的解决方案,作者在比赛完后为此方法整理一篇论文放在了arXiv,文章名:《Entity Embeddings of Categorical
2021-02-27 22:58:36 613 1
原创 浅谈K-Fold Target Encoding
浅谈K-Fold Target Encoding原创 致Great ,公众号: ChallengeHub1.Target Encoding概念单热编码,标签编码,频率编码,目标编码等是非常常见的技巧,通常在特征工程中使用以提高模型在数据集预测的准确性。不同的特征工程技巧可以从不同角度来丰富特征。当数据中,某些分类变量的不数量不是很多时,独热编码(One Hot encoder)或伪编码(Dummy Encoder)是一种不错的方法。但是,当要数据中分类变量的数量增加时,它可能会失效,因为这种编码方
2021-02-27 22:50:38 3086 3
原创 DeepTables表格数据的深度学习工具包
表格数据深度学习框架-DeepTables原创 致Great 公众号: ChallengeHub官方链接:https://github.com/DataCanvasIO/DeepTables简介MLP(也称为全连接神经网络)已被证明在学习分布表示方面效率低下。事实证明,感知器层的“Add”操作在探索乘法特征交互时性能较差。在大多数情况下,必须进行手动特征工程,并且这项工作需要广泛的领域知识并且非常繁琐。如何在神经网络中有效地学习功能交互成为最重要的问题。目前为止,业界已经提出了各种模型来进行CT
2021-02-27 22:42:14 645
原创 【干货】pandas相关工具包
【干货】pandas相关工具包原创 致Great ,公众号:ChallengeHub1 Pandas 介绍Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(panel dat
2021-02-27 22:32:04 661
原创 Keras-TextClassification 文本分类工具包
Keras-TextClassification 文本分类工具包致Great ,公众号:ChallengeHubInstall(安装)pip install Keras-TextClassificationstep2: download and unzip the dir of 'data.rar', 地址: https://pan.baidu.com/s/1I3vydhmFEQ9nuPG2fDou8Q 提取码: rket cover the dir of data to anac
2021-02-27 22:18:09 759
原创 【数据挖掘算法竞赛】山东省-公积金贷款逾期预测TOP8 baseline523
【数据挖掘算法竞赛】山东山东省-公积金贷款逾期预测TOP8 baseline523原创 lrhao ,公众号: ChallengeHub赛题链接http://data.sd.gov.cn/cmpt/cmptDetail.html?id=26赛题背景维持和发展信用关系,是保护社会经济秩序的重要前提。随着金融市场的发展,信贷业务日益增多,金融机构迫切需要了解信贷主体的信息情况,对信贷资产的安全性、信贷主体的偿债能力给与科学评价,最大限度地防范贷款逾期风险。赛题数据评价指标本次比赛成绩排名根据测
2021-02-27 22:02:03 1285
原创 目标编码的技巧-Soothing 和 Hierarchical Bayesian
目标编码的技巧-Soothing 和 Hierarchical Bayesian**原创 致Great 公众号:ChallengeHub **本文简单介绍两种目标编码方式,大家有兴趣的可以参考原文链接进行理解与尝试使用,祝大家取得好成绩~Target encoding with smoothingdef add_noise(series, noise_level): return series * (1 + noise_level * np.random.randn(len(series)
2021-02-27 21:51:49 1595 2
原创 CCF复赛 docker踩坑记 为明年踩坑做准备
CCF复赛 docker踩坑记 为明年踩坑做准备原创 致Great 公众号:ChallengeHub1 docker安装篇下面以Ubuntu系统讲解docker安装,其他系统可以参考安装 Docker1.1 卸载旧版本旧版本的 Docker 称为 docker 或者 docker-engine,使用以下命令卸载旧版本:$ sudo apt-get remove docker \ docker-engine \ docker.io1
2021-02-27 21:42:24 206
原创 **一份半监督学习的指南-伪标签学习**
一份半监督学习的指南-伪标签学习原创 致Great ChallengeHub1 引言在ML中,有3种机器学习方法-监督学习、无监督学习和强化学习技术。 我们所知道的监督学习是指数据带有标签的情况, 无监督学习是仅存在数据而没有标签的情况,强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步“强化”这种策略,以期继续取得较好的结果。想象一下这样一种情况,在训练中,标记数据的数量更少,而未标记数据的数量更多。 一种称为半监督学习( [Semi-Superv
2021-02-27 21:14:18 253
原创 python豆瓣电影xpath方法索引爬虫并导入数据库
在学了urllib和Fiddler抓包爬虫之后,最大的感触就是费时费力效果也不好,偶然在一篇文章中发现xpath基于开发者工具爬虫并对相同标签进行索引,解决了同一个标题却有多个相同标签的问题,这是写入数据库的效果爬虫代码...
2018-11-01 11:03:13 677
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人