python
文章平均质量分 81
lrhaowx
腾讯数据分析师,有过数据挖掘竞赛冠亚季军,与大家分享自己的学习经验&机器学习&深度学习&数据竞赛等干货
展开
-
强化学习教程(四):从PDG到DDPG的原理及tf代码实现详解
强化学习教程(四):从PDG到DDPG的原理及tf代码实现详解原创 lrhao 公众号:ChallengeHub收录于话题#强化学习教程前言在前面强化学习教程(三)中介绍了基于策略「PG」算法,相比较DQN算法,PG是一种学习连续行为控制策略的方法,通过概率分布分布函数π,来表示每一步的最优策略,在每一步根据该概率分布进行action采样,获取当前最佳的action取值,即:生成action的过程,本质是一个随机过程,最后学习到的策略,也是一个随机策略(stochastic polic)。原创 2021-03-14 11:47:01 · 1046 阅读 · 0 评论 -
“梧桐杯”中国移动大数据应用创新大赛-智慧城市赛道baseline0.827(纯代码+详细注释)
“梧桐杯”中国移动大数据应用创新大赛-智慧城市赛道baseline0.827(纯代码+详细注释)公众号:ChallengeHub原创枵央01 前言感谢作者「枵央」开源,为国内的开源精神点赞,本次赛题开源的特征较少,采用xgb、rf模型融合,具体开源内容见开源方案(附有详细代码注释)。02 赛题链接https://js.dclab.run/v2/cmptDetail.html?id=46403 竞赛奖项 复赛: 所有获奖选手颁发证书与奖...原创 2021-03-07 13:31:04 · 1819 阅读 · 3 评论 -
浅谈Single-Pass算法
浅谈Single-Pass算法原创 致Great ,公众号: ChallengeHubSingle-Pass算法又称单通道法或单遍法,是流式数据聚类的经典方法。对于依次到达的数据流,该方法按输入顺序每次处理一个数据,依据当前数据与已有类的匹配度大小,将该数据判为已有类或者创建一个新的数据类,实现流式数据的增量和动态聚类,适合对流数据进行挖掘,而且算法的时间效率高;不足之处主要表现在该方法具有输入次序依赖特性,即对于同一聚类对象按不同的次序输入,会出现不同的聚类结果。01. Single-Pass算法基原创 2021-02-28 10:50:58 · 3756 阅读 · 0 评论 -
[转]NLP关键词提取方法总结及实现
[转]NLP关键词提取方法总结及实现公众号 ChallengeHub最近在研究关键词的提取算法,看到一篇关于关键词提取算法的总结,比较全面了,在这里分享给大家,希望能够帮助同学们~原文链接:https://blog.nowcoder.net/n/ac016f8256f54c4b8c8784e99bccf28a(ps:作者同意转发,如果想了解更多,请阅读全文)目录关键词提取概述TF-IDF关键词提取算法及实现TextRank关键词提取算法实现LDA主题模型关键词提取算法及实现转载 2021-02-27 23:11:50 · 593 阅读 · 0 评论 -
浅谈Entity Embedding
浅谈Entity Embedding原创 致Great ,公众号:ChallengeHub“万物皆可Embedding”现实生活或者比赛中,我们会经常见到表格数据,其中包含了各种类别特征。本文将简单介绍利用神经网络来表示类别特征的方法-Entity Embedding,这个方法首先出现在kaggle上的《Rossmann Store Sales》中的rank 3的解决方案,作者在比赛完后为此方法整理一篇论文放在了arXiv,文章名:《Entity Embeddings of Categorical原创 2021-02-27 22:58:36 · 563 阅读 · 1 评论 -
浅谈K-Fold Target Encoding
浅谈K-Fold Target Encoding原创 致Great ,公众号: ChallengeHub1.Target Encoding概念单热编码,标签编码,频率编码,目标编码等是非常常见的技巧,通常在特征工程中使用以提高模型在数据集预测的准确性。不同的特征工程技巧可以从不同角度来丰富特征。当数据中,某些分类变量的不数量不是很多时,独热编码(One Hot encoder)或伪编码(Dummy Encoder)是一种不错的方法。但是,当要数据中分类变量的数量增加时,它可能会失效,因为这种编码方原创 2021-02-27 22:50:38 · 2699 阅读 · 3 评论 -
DeepTables表格数据的深度学习工具包
表格数据深度学习框架-DeepTables原创 致Great 公众号: ChallengeHub官方链接:https://github.com/DataCanvasIO/DeepTables简介MLP(也称为全连接神经网络)已被证明在学习分布表示方面效率低下。事实证明,感知器层的“Add”操作在探索乘法特征交互时性能较差。在大多数情况下,必须进行手动特征工程,并且这项工作需要广泛的领域知识并且非常繁琐。如何在神经网络中有效地学习功能交互成为最重要的问题。目前为止,业界已经提出了各种模型来进行CT原创 2021-02-27 22:42:14 · 518 阅读 · 0 评论 -
【干货】pandas相关工具包
【干货】pandas相关工具包原创 致Great ,公众号:ChallengeHub1 Pandas 介绍Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(panel dat原创 2021-02-27 22:32:04 · 620 阅读 · 0 评论 -
Keras-TextClassification 文本分类工具包
Keras-TextClassification 文本分类工具包致Great ,公众号:ChallengeHubInstall(安装)pip install Keras-TextClassificationstep2: download and unzip the dir of 'data.rar', 地址: https://pan.baidu.com/s/1I3vydhmFEQ9nuPG2fDou8Q 提取码: rket cover the dir of data to anac原创 2021-02-27 22:18:09 · 714 阅读 · 0 评论 -
【数据挖掘算法竞赛】山东省-公积金贷款逾期预测TOP8 baseline523
【数据挖掘算法竞赛】山东山东省-公积金贷款逾期预测TOP8 baseline523原创 lrhao ,公众号: ChallengeHub赛题链接http://data.sd.gov.cn/cmpt/cmptDetail.html?id=26赛题背景维持和发展信用关系,是保护社会经济秩序的重要前提。随着金融市场的发展,信贷业务日益增多,金融机构迫切需要了解信贷主体的信息情况,对信贷资产的安全性、信贷主体的偿债能力给与科学评价,最大限度地防范贷款逾期风险。赛题数据评价指标本次比赛成绩排名根据测原创 2021-02-27 22:02:03 · 1244 阅读 · 0 评论 -
目标编码的技巧-Soothing 和 Hierarchical Bayesian
目标编码的技巧-Soothing 和 Hierarchical Bayesian**原创 致Great 公众号:ChallengeHub **本文简单介绍两种目标编码方式,大家有兴趣的可以参考原文链接进行理解与尝试使用,祝大家取得好成绩~Target encoding with smoothingdef add_noise(series, noise_level): return series * (1 + noise_level * np.random.randn(len(series)原创 2021-02-27 21:51:49 · 1494 阅读 · 2 评论 -
CCF复赛 docker踩坑记 为明年踩坑做准备
CCF复赛 docker踩坑记 为明年踩坑做准备原创 致Great 公众号:ChallengeHub1 docker安装篇下面以Ubuntu系统讲解docker安装,其他系统可以参考安装 Docker1.1 卸载旧版本旧版本的 Docker 称为 docker 或者 docker-engine,使用以下命令卸载旧版本:$ sudo apt-get remove docker \ docker-engine \ docker.io1原创 2021-02-27 21:42:24 · 175 阅读 · 0 评论 -
**一份半监督学习的指南-伪标签学习**
一份半监督学习的指南-伪标签学习原创 致Great ChallengeHub1 引言在ML中,有3种机器学习方法-监督学习、无监督学习和强化学习技术。 我们所知道的监督学习是指数据带有标签的情况, 无监督学习是仅存在数据而没有标签的情况,强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步“强化”这种策略,以期继续取得较好的结果。想象一下这样一种情况,在训练中,标记数据的数量更少,而未标记数据的数量更多。 一种称为半监督学习( [Semi-Superv原创 2021-02-27 21:14:18 · 223 阅读 · 0 评论