机器学习
文章平均质量分 92
数据拾光者
热爱技术,更热爱生活的90后大叔。希望深耕于广告行业,和更多的小伙伴们一起分享大数据和人工智能技术。
展开
-
广告行业中那些趣事系列57:从理论到实战一网打尽Transformer中的位置编码
导读:本文是“数据拾光者”专栏的第五十七篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇从理论到实践介绍了Transformer中的位置编码,包括训练式位置编码、三角函数式位置编码和相对位置编码,同时基于开源项目bert4keras源码实践了各种位置编码。欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。知乎专栏:数据拾光者公众号:数据拾光者...原创 2022-09-06 21:26:11 · 2890 阅读 · 0 评论 -
广告行业中那些趣事系列24:从理论到实践解决文本分类中的样本不均衡问题...
摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采...原创 2020-11-29 22:17:38 · 545 阅读 · 0 评论 -
广告行业中那些趣事系列9:一网打尽Youtube深度学习推荐系统
最新最全的文章请关注我的微信公众号:数据拾光者。摘要:本篇主要分析Youtube深度学习推荐系统,借鉴模型框架以及工程中优秀的解决方案从而应用于实际项目。首先讲了下用户、广告主和抖音这一类视频平台三者之间的关系:就是平台将视频资源作为商品免费卖给用户,同时将用户作为商品有偿卖给广告主,仅此而已。平台想获取更高的收益就必须提升广告的转化效率,而前提是吸引用户增加观看视频的时长,这里就涉及到视频...原创 2020-04-17 18:29:16 · 1028 阅读 · 0 评论 -
广告行业中那些趣事系列8:详解BERT中分类器源码
最新最全的文章请关注我的微信公众号:数据拾光者。摘要:BERT是近几年NLP领域中具有里程碑意义的存在。因为效果好和应用范围广所以被广泛应用于科学研究和工程项目中。广告系列中前几篇文章有从理论的方面讲过BERT的原理,也有从实战的方面讲过使用BERT构建分类模型。本篇从源码的角度从整体到局部分析BERT模型中分类器部分的源码。目录01 整体模块划分02 数据处理模块03 特征处理...原创 2020-04-07 20:24:59 · 531 阅读 · 0 评论 -
广告行业中那些趣事系列6:BERT线上化ALBERT优化原理及项目实践(附github)
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。摘要:BERT因为效果好和适用范围广两大优点,所以在NLP领域具有里程碑意义。实际项目中主要使用BERT来做文本分类任务,其实就是给文本打标签。因为原生态BERT预训练模型动辄几百兆甚至上千兆的大小,模型训练速度非常慢,对于BERT模型线上化非常不友好。本篇研究目前比较火的BERT最新派生产品ALBERT来完成BERT线上化服务。AL...原创 2020-03-08 18:37:37 · 715 阅读 · 0 评论 -
广告行业中那些趣事系列5:BERT实战多标签标注模型(附github源码)
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。摘要:之前广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码),我们通过BERT构建了二分类器。这里根据实际项目需要使用BERT构建多标签标注模型,可通过一个模型识别多类标签,极大提升建模效率。实际项目中会根据业务需要同时使用二分类器和多标签标注模型完成文本识别任务。通过本篇学习,小伙伴们可以使用BERT...原创 2020-02-24 10:58:01 · 817 阅读 · 0 评论 -
Spark中那些常用的特征处理操作
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。摘要:通常在大厂实际项目中会使用Spark来处理大规模数据下的数据挖掘和分析相关工作。本篇从项目实战中总结常用的Spark特征处理实例,方便小伙伴们更好的使用Spark做数据挖掘相关的工作。目录01 特征处理的意义02 特征提取03 特征转换04 特征选择01 特征处理的意义在数据挖掘项目中,由于我们...原创 2020-02-14 11:19:03 · 612 阅读 · 0 评论 -
广告行业中那些趣事系列4:详解从配角到C位出道的Transformer
微信公众号:数据拾光者。愿结交更多的小伙伴,一同走人生路。摘要:上一篇广告行业中那些趣事系列3:NLP中的巨星BERT,从理论的角度讲了下NLP中有里程碑意义的BERT模型。BERT具有效果好和通用性强两大优点,其中效果好最主要的原因就是使用了Transformer作为特征抽取器。本篇主要详解下这个从配角到C位出道的Transformer,主要从宏观和微观的角度分析Transformer,讲...原创 2020-02-12 10:57:46 · 620 阅读 · 0 评论 -
广告行业中那些趣事系列3:NLP中的巨星BERT
摘要:上一篇广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码)通过项目实战讲解了如何使用BERT模型来完成文本分类任务。本篇则从理论的角度讲解BERT模型的前世今生。BERT虽然在模型创新的角度来说并不是非常出色,但它是近几年NLP领域杰出成果的集大成者。BERT大火最重要的原因是效果好,通用性强两大优点。可以说BERT的出现是NLP领域里具有里程碑意义的大事件。本篇主...原创 2020-02-10 09:43:21 · 464 阅读 · 0 评论 -
python 实现 hive中类似 lateral view explode 的功能
背景:加入现在有这样的数据,可能一条ocr代表两个label,并且label通过","分隔。我们想把数据转换成下面的。原始数据:label ocr 日常行车服务,汽车资讯 去加油站,加完油后直接离开?最开心的可能是加油站的工作人员 社会民生 已致2死20伤 !景区突遭尘卷风袭击,孩子被卷上天!现场画面曝光 目标数据:label ocr 日常行车服...原创 2019-11-26 16:29:10 · 559 阅读 · 0 评论 -
百度paddle ernie 实战
背景:最近百度 paddle ernie非常火,而且公司打算使用paddle作为机器学习的框架,所以研究ernie用于文本识别,主要用于文本分类任务,根据资讯的title来做成很多二分类器,比如判定这个资讯是不是XXX标签。下面是实战的记录,已经调通ernie文本分类的代码,详细记录在这里。############# 下面的版本是在linux 环境上是可以运行成功的https://g...原创 2019-11-12 16:56:29 · 2219 阅读 · 0 评论 -
自然语言处理三大特征抽取器(CNN/RNN/TF)比较
转载https://zhuanlan.zhihu.com/p/54743941放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较一个是Bert这种两阶段的模式(预训练+Finetuning)必将成为NLP领域研究和工业应用的流行方法;第二个是从NLP领域的特征抽取器角度来说,Transformer会逐步取代RNN成为最主流的的特征抽取器。目...原创 2019-11-08 17:33:14 · 2398 阅读 · 0 评论 -
7个Python特殊技巧,助力你的数据分析工作之路
https://zhuanlan.zhihu.com/p/888091767个Python特殊技巧,助力你的数据分析工作之路1. Pandas Profilingdf.sample(5)df.describe()Pandas Profiling (the fancy way)pip install pandas_profilingimport pandas as pdimp...原创 2019-11-05 14:52:07 · 346 阅读 · 0 评论 -
深度学习网络调参技巧
https://zhuanlan.zhihu.com/p/24720954?utm_source=zhihu&utm_medium=social深度学习网络调参技巧一、好的实验环境是成功的一半由于深度学习实验超参众多,代码风格良好的实验环境,可以让你的人工或者自动调参更加省力,有以下几点可能需要注意:1.将各个参数的设置部分集中在一起。如果参数的设置分布在代码的各个地方,那么修...原创 2019-11-05 10:29:27 · 699 阅读 · 0 评论 -
实战腾讯开源文本分类工具NeuralNLP-NeuralClassifier
背景:想用腾讯文本开源工具做一个XX资讯的二分器,区分是不是XX资讯。NeuralNLP-NeuralClassifier的github在这里:https://github.com/Tencent/NeuralNLP-NeuralClassifier数据格式如下:csv文件,字段是label,title。数据举例如下:1,美女模特走秀,这纤细的小蛮腰,真想拥入怀中0,老厂房变健康产...原创 2019-10-15 19:02:44 · 2227 阅读 · 5 评论 -
机器学习笔记
https://monkeylearn.com/blog/gentle-guide-to-machine-learning/A Gentle Guide to Machine Learninghttps://github.com/wilsonlsm006/TensorFlow-Examples/blob/master/README.md一、现实中的机器学习1.图像处理 图像标签 图形识别 汽车自动...原创 2018-05-30 21:01:31 · 245 阅读 · 0 评论 -
零基础从20K到25K的深度学习之路--0 搞定机器学习环境
摘要:这是一个系列的文章,讲述了一个工程师从零自学深度学习的过程。希望能和大家100小时入门深度学习,然后慢慢积累10000小时成为大师。工欲善其事必先利器,想入门深度学习,第一步先把开发环境搞定。1.下载并安装pycharm下载pycharm链接下载完成后傻瓜式安装,一步一步又一步2.下载并配置python3.52.1 根据下面路径下载下载python3.5链接2.2...原创 2018-07-21 17:57:36 · 348 阅读 · 0 评论 -
零基础从20K到25K的深度学习之路--1为啥要学机器学习.
摘要:这是一个系列的文章,讲述了一个工程师从零自学深度学习的过程。希望能和大家100小时入门深度学习,然后慢慢积累10000小时成为大师。这篇讲讲为啥要学习深度学习,再引入一个可运行的demo。原创 2018-07-21 18:05:13 · 354 阅读 · 0 评论 -
零基础从20K到25K的深度学习之路--2 实战第一个深度学习模型
摘要:这是一个系列的文章,讲述了一个工程师从零自学深度学习的过程。希望能和大家100小时入门深度学习,然后慢慢积累10000小时成为大师。这篇实战第一个深度学习demo,了解下机器学习项目的套路。1.机器学习并没有想象中那么难很多小伙伴觉得机器学习很难入门,以为需要学习很多高深的算法,要会很多高深的数学知识。其实,事实并非如此,至少对入门级别的不是这样。我觉得机器学习工程师分成两类...原创 2018-07-21 18:22:26 · 385 阅读 · 0 评论 -
零基础从20K到25K的深度学习之路--3 用keras做一个回归模型
用keras做一个回归模型摘要:这是一个系列的文章,讲述了一个工程师从零自学深度学习的过程。希望能和大家100小时入门深度学习,然后慢慢积累10000小时成为大师。用深度学习做一个回归模型,用于做预测。 1.什么是回归?啥是回归?用听不懂的语言说,回归是一种数学模型,然后xxxxxxx然后用我的话说,现在有个x,还有个y,y和x有一种关系,咱们先来个简单的例子。y=3x+2,这...原创 2018-08-16 10:21:27 · 441 阅读 · 0 评论 -
手写版深度学习back propagation算法的推到过程
参考资料:https://www.zhihu.com/question/27239198原创 2018-09-06 20:51:01 · 312 阅读 · 0 评论 -
Kaggle web traffic比赛整理
Kaggle web traffic比赛:https://www.kaggle.com/c/web-traffic-time-series-forecasting/dataKaggle web traffic比赛第一名代码地址:https://github.com/Arturus/kaggle-web-trafficKaggle web traffic比赛第一名代码讲解:https://...原创 2018-09-10 14:52:07 · 4037 阅读 · 0 评论 -
分享一个spark xgboost可运行的实例
背景知识:这两天公司想把xgboost模型做的件量预测移植到spark xgboost上,然后就开始了漫漫长路。踩了很多坑,然后把自己的目前可运行的一个demo放上来跟大家分享。1.环境:idealinux系统这里有个坑:如果不想去编译xgboost,通过maven引入的xgboost4j包只支持linux系统,因为windows需要.dll文件,linux需要.so文件,而mav...原创 2018-09-19 19:40:41 · 9447 阅读 · 2 评论 -
解决安装lightgbm中遇到的OSError: [WinError 126] 找不到指定的模块。[couln't find the module]问题
背景:最近刷kaggle的题,里面有个用到lighgbm的,所以打算用lighgbm来试试。先通过pip3 install lightgbm安装了包但是运行程序的时候报这个错Traceback (most recent call last): File "<ipython-input-1-bd597743fb90>", line 1, in <module&g...原创 2018-09-21 19:05:44 · 3195 阅读 · 4 评论 -
xgboost资料汇总
github xgboost 一篇好的二分类demohttps://github.com/dmlc/xgboost/tree/master/demo/binary_classificationxgboost稳定版本https://github.com/dmlc/xgboost/releasesXGBoost4J-Spark now requires Apache Spark 2.3...原创 2018-11-03 11:52:10 · 392 阅读 · 0 评论 -
京东JData算法大赛小结(公司内部赛)
总体解决方案本文将高潜用户购买意向预测,抽象为一个二分类问题。从用户,商品,品牌,用户-商品,用户-品牌五个维度进行特征提取。将观察天未来5天有购买行为的用户-商品对标记为正样本,观察天过去30天至未来5天有交互行为但未购买的用户-商品对标记为负样本。由于正负样本比例极不平衡,采用了对正样本进行重采样及负样本进行下采样的方式来平衡正负样本比例。利用xgboost进行模型训练,最后利用LR对预测...转载 2018-11-01 17:51:50 · 5117 阅读 · 1 评论 -
使用xgboost4j-spark进行模型训练
代码说明xgboost作为数据挖掘类比赛的必备算法,之前参加jdata比赛时,也学着使用了下xgboost4j-spark,觉得很好用,既支持分布式,同时效果和速度都比spark自带的gbdt,rf算法效果要好。模型代码包含:-train:训练-train_cv:训练带交叉验证进行参数选择-predict_eval:预测并在验证集上验证准确率-predict:预测-train_le...转载 2018-11-01 17:55:56 · 4749 阅读 · 1 评论 -
Spark ML离线训练模型用于在线预测
最近公司有需求需要将离线训练好的算法模型应用到线上去实时预测,在线预测不考虑feature加工的情况下,经调研,发现jpmml-sparkml+jpmml-evaluator的方式可以满足条件。不过使用时需要注意该框架是AGPL-3.0协议。方案:spark ml + jpmml-sparkml + jpmml-evaluatorSpark离线训练Random Forest模型并保存为pm...转载 2018-11-01 17:58:24 · 5862 阅读 · 2 评论 -
SparkML GBDT&RF算法使用示例
GBDT与RF作为机器学习中最常用的两个集成学习算法,Spark中也有相应的实现。下面是基于Spark 2.1.0 GBDT与RF算法的训练与预测(train/predict)接口实现。功能:- train(训练)/train_cv(训练+网格搜索参数优化+交叉验证)/predict(预测)接口Random Forest算法train/train_cv/predict实现:im...转载 2018-11-01 18:01:01 · 2190 阅读 · 0 评论 -
cuda/tensorflow/keras安装笔记
sudo yum install kernel-devel-$(uname -r)、kernel-headers-$(uname -r) 手动下载,rpm -ivh安装 禁用nouveau driver,创建 /etc/modprobe.d/blacklist-nouveau.conf: 1 2 ...转载 2018-11-01 18:02:54 · 239 阅读 · 0 评论 -
Spark资料链接汇总
【SparkX】基于Spark Graphx的大规模用户图计算和应用 快刀初试:Spark GraphX在淘宝的实践 Spark中文手册9:Spark GraphX编程指南 Spark Graphx:构建graph和聚合消息 GraphX Programming Guide Spark的Graphx学习笔记–Pregel Apache Spark源码走读之14 – Graphx实现...转载 2018-11-01 18:04:08 · 736 阅读 · 0 评论 -
A Full Integration of XGBoost and Apache Spark
A Full Integration of XGBoost and Apache SparkOctober 26, 2016By DMLC inShare(This article was first published on DMLC, and kindly contributed to R-bloggers) ShareTweetIntroduction...转载 2018-11-01 21:22:34 · 330 阅读 · 0 评论 -
基于spark mllib的gbt算法实例
背景:公司需要使用spark mllib进行预测,基于这个需求,使用spark mllib自带的gbm进行预测。代码1:博客学院下载图文课论坛APP问答商城VIP会员活动招聘ITeyeGitChat搜CSDN写博客赚零钱传资源关注和收藏在这里Markdown编辑器富文本编辑器查看主页内容文章管理专栏管理评论管理个人分类管理Chat快问 ...原创 2018-11-08 19:34:31 · 689 阅读 · 0 评论 -
关于xgboost4j遇到的坑
背景:前一段时间有任务,需要使用xgboost4j重构公司里面的预测模型代码。然后就是各种开工,搞了一段时间后把自己遇到的问题回顾下。结论:1.xgboost4j针对不同的环境差异很大。有linux,mac和windows。因为涉及到编译源码,所以困难重重。最简单的用法莫过于maven方式导入xgboost4j,但是这种方法只能在linux开发环境。如果用windows决定有问题;...原创 2018-11-08 20:02:28 · 7370 阅读 · 5 评论 -
spark mllib问题汇总
1.java.lang.SecurityException: Invalid signature file digest for Manifest main attributes出现文件签名不合法的问题需要执行zip -d IDSP_TS_SPARK_PREDICTION.jar META-INF/*.RSA META-INF/*.DSA META-INF/*.SF2.Lorg/apa...原创 2018-11-23 16:32:00 · 810 阅读 · 0 评论 -
gbdt xgboost理论知识
https://blog.csdn.net/v_july_v/article/details/81410574原创 2018-12-06 10:44:45 · 287 阅读 · 0 评论 -
python 调用 R包 整体流程
1. 下载R和配置R环境变量https://cran.r-project.org/bin/windows/base/ 下载R包path:C:\Program Files\R\R-3.5.1\bin\x64path:C:\Program Files\R\R-3.5.1\bin\x64\R.dll2.下载python环境3.下载rpy2直接用pip install rpy...原创 2018-12-06 16:32:51 · 3116 阅读 · 0 评论 -
算法工程师面试300题
请简要介绍下SVM。 请简要介绍下Tensorflow的计算图。 请问GBDT和XGBoost的区别是什么? 在k-means或kNN,我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离? 百度2015校招机器学习笔试题。 简单说说特征工程。 关于LR。 overfitting怎么解决? LR和SVM的联系与区别? LR与线性回归的区别与联系? 为什么XGBoos...原创 2019-01-14 11:41:44 · 1335 阅读 · 1 评论 -
Keras学习笔记
这就是KerasKeras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择Keras:简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性)支持CNN和RNN,或二者的结合无缝CPU和GPU切换Keras的核心数据...原创 2019-01-09 15:00:32 · 354 阅读 · 0 评论 -
2015-2018节假日表
节假日2015元旦2015-01-01 2015-01-03春节2015-02-18 2015-02-24清明2015-04-04 2015-04-06劳动节2015-05-01 2015-05-03端午节2015-06-20 2015-06-22抗战胜利2015-09-03 2015-09-05中秋2015-09-26 2015...原创 2019-01-28 18:15:33 · 889 阅读 · 0 评论