猪逻辑公园

机器学习 风控 推荐 NLP

台湾-李宏毅教授的深度学习视频教程

李宏毅老师简介:主要研究领域为机器学习(特别是深度学习)、口语语义理解和语音识别。 2012年从台北 National Taiwan University (NTU) 博士毕业。2012年9月—2013年8月,在 Sinica Academia 的 Research Center for Inf...

2019-07-14 22:14:50

阅读数 12

评论数 0

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

转载自- 张俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/49271699 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有...

2019-07-14 21:42:11

阅读数 9

评论数 0

sklearn的自定义转换器transformer以及使用pipeline对数据进行处理

摘要 在很多机器学习场景中,需要我们对数据进行预处理,sklean提供的pipeline接口方便我们将数据预处理与模型训练等工作进行整合,方便对训练集、验证集、测试集做相同的转换操作,极大的提高了工作效率。但是在不同场景下往往预处理的方法会出现多样性,然而sklearn所提供的预处理接口(Tra...

2019-07-14 12:25:19

阅读数 14

评论数 0

AI研习社技术分享

AutoML在 IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享 GitHub项目推荐|awesome-bert:BERT相关资源列表 【CVPR 2019 全部论文合集】https://ai.yanxishe.com/page/resource...

2019-07-09 18:39:41

阅读数 158

评论数 0

Spark集群安装和部署(六)-----pyspark更新Python版本、Notebook安装配置、安装pip

默认安装好spark后,pyspark环境中Python为2,需要更新为3 Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu...

2019-07-08 18:41:53

阅读数 49

评论数 0

Spark集群安装和部署(五)-----ubuntu16.0.4安装Spark

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-08 17:44:57

阅读数 62

评论数 0

Spark集群安装和部署(四)-----ubuntu16.0.4安装Scala

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-08 16:02:57

阅读数 14

评论数 0

Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-08 12:50:24

阅读数 20

评论数 0

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-08 12:45:02

阅读数 14

评论数 0

Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-05 17:21:50

阅读数 35

评论数 0

DeepFM原理及源码解析

1、DeepFM原理回顾 先来回顾一下DeepFM的模型结构: DeepFM包含两部分:因子分解机部分与神经网络部分,分别负责低阶特征的提取和高阶特征的提取。这两部分共享同样的嵌入层输入。DeepFM的预测结果可以写为: 嵌入层 嵌入层(embedding layer)的结构如...

2019-06-29 20:06:42

阅读数 39

评论数 0

PCA异常检测

Principle Component Analysis是主成分分析,简称PCA。它的应用场景是对数据集进行降维。降维后的数据能够最大程度地保留原始数据的特征(以数据协方差为衡量标准)。 PCA的原理是通过构造一个新的特征空间,把原数据映射到这个新的低维空间里。PCA可以提高数据的计算性能,并且缓...

2019-06-29 18:20:47

阅读数 79

评论数 0

spark 将DataFrame所有的列类型改为double

前言 由于spark机器学习要求输入的DataFrame类型为数值类型,所以如果原始数据读进来的列为string类型,需要一一转化,而如果列很多的情况下一个转化很麻烦,所以能不能一个循环或者一个函数去解决呢。 1. 单列转化方法 import org.apache.spark.sql.ty...

2019-06-20 15:02:27

阅读数 16

评论数 0

R语言【漫画】数据PCA主成分分析报告

数据基本探查 数据框包含1714个样本,20个变量: 序号 变量 序号 变量 1 漫画名称 11 是否完结 2 ...

2019-06-19 17:50:36

阅读数 396

评论数 1

R语言:缺失值处理

前言   一个完整的处理方法通常包含以下几个步骤:   (1)识别缺失数据;   (2)检查导致数据缺失的原因;   (3)删除包含缺失值的实例或用合理的数值代替(插补)缺失值。   但遗憾的是,仅有识别缺失数据是最清晰明确的步骤。知道数据为何缺失依赖于你对数据生成过程的理解,而决定如何...

2019-06-18 14:42:50

阅读数 41

评论数 0

一元线性回归及Excel回归分析

摘要 一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计、分析、建模经验的人都知道这个分析的含义,也会用各种工具来做这个分析。这里面想把这个分析背后的细节讲讲清楚,也就是后面的数学原理。 什么是一元线性回归 回归分析(Regression Analysis)是确定两种或两种以上...

2019-06-08 19:26:54

阅读数 87

评论数 0

Scikit-learn——LogisticRegression与SGDClassifier

1.sklearn.linear_model.logistic regression 一般来说,逻辑回归用梯度下降算法来求解参数比较常见;所以这也导致一开始误以为LogisticRegression模型就是用梯度下降算法来实现的,当遇到SGDClassifier(Stochastic Gradi...

2019-06-04 20:57:24

阅读数 24

评论数 0

GBDT+LR产生新的特征

1、背景 CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logi...

2019-06-03 15:49:12

阅读数 33

评论数 0

XGBoost:参数解释

XGBoost参数 在运行XGboost之前,必须设置三种类型成熟:general parameters,booster parameters和task parameters: General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的boos...

2019-05-30 23:13:31

阅读数 12

评论数 0

Feature Tools:自动特征构造

特征工程基本概念 特征工程意味着从现有的数据中构造额外特征,这些特征通常分布在多张相关的表中。特征工程需要从数据中提取相关信息并将其存入单张表格中,然后被用来训练机器学习模型。 构造特征是一个非常耗时的过程,因为每个新的特征通常需要几步才能构造,特别是当使用多张表的信息时。我们可以将特征构造的...

2019-04-26 15:44:10

阅读数 127

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭