学习笔记
谢xie111
大家好,希望在此与各业人事交流经验
展开
-
Task4 建模调参
Task4 建模调参 1、线性回归模型: 线性回归对于特征的要求; 处理长尾分布; 理解线性回归模型; 通过作图我们发现数据的标签(price)呈现长尾分布,不利于我们的建模预测。原因是很多模型都假设数据误差项符合正态分布,而长尾分布的数据违背了这一假设。 2、模型性能验证: 评价函数与目标函数; 交叉验证方法; 留一验证方法; 针对时间序列问题的验证; 绘制学习率曲线; 绘制验证曲线; 3...原创 2020-04-01 19:43:28 · 158 阅读 · 0 评论 -
Task3 特征工程
Task3 特征工程 1.异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 2.特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到 [0,1] 区间); 3.数据分桶: 等频分桶; 等距分桶; Best-KS 分桶(类似利用基尼指数进行二分类); 卡方分桶; 4.缺失值处理: 不处理(针对类似 XGBoost ...原创 2020-03-28 14:56:36 · 125 阅读 · 0 评论 -
Task2 数据分析
Datawhale 零基础入门数据挖掘-Task2 数据分析 赛题:零基础入门数据挖掘 - 二手车交易价格预测 地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX 观察数据维度 1.载入各种数据科学以及可视化库: 数据科学库 pa...原创 2020-03-23 18:52:25 · 173 阅读 · 0 评论 -
NLP理论基础与实践task-06 Attention原理
一、基本的Attention原理 attention即为注意力,人脑在对于的不同部分的注意力是不同的。需要attention的原因是非常直观的,比如,我们期末考试的时候,我们需要老师划重点,划重点的目的就是为了尽量将我们的attention放在这部分的内容上,以期用最少的付出获取尽可能高的分数;再比如我们到一个新的班级,吸引我们attention的是不是颜值比较高的人?普通的模型可以看成所有部分的...原创 2019-08-17 21:23:29 · 300 阅读 · 0 评论 -
NLP理论基础和实践Task07 BERT
一、Transformer的原理 参考文献 https://www.jianshu.com/p/e40dad747651 基于假设:一个词在句子中的意思,与上下文(语境)有关。与哪些词有关呢?Transformer就是:利用点积将句子中所有词的影响当成权重都考虑了进去。 Transform模型是与RNN和CNN都完全不同的思路。相比Transformer,RNN/CNN的问题: RNN序列化...原创 2019-08-21 20:09:45 · 241 阅读 · 0 评论 -
NLP理论基础和实践task-05循环和递归神经网络
一、RNN的结构 循环神经网络(Recurrent Neural Network,RNN)DNN以及CNN在对样本提取特征的时候,样本与样本之间是独立的,而有些情况是无法把每个输入的样本都看作是独立的,比如NLP中的此行标注问题,ASR中每个音素都和前一个音素是相关的,这类问题可以看做一种带有时序序列的问题,无法将样本看做是相互独立的,因此单纯的DNN和CNN解决这类问题就比较棘手。此时RNN就是...原创 2019-08-16 15:56:02 · 352 阅读 · 0 评论 -
NLP理论基础和实践task-03神经网络基础
一、神经网络的基本概念 1. 前馈神经网络 前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。 前馈神经网络(feedforward neural network)是种比较简单的神经网络,只有输入层input layer (黄)、隐藏层hidden layer (绿)、输出层output layer (红) ...原创 2019-08-12 11:29:43 · 188 阅读 · 0 评论 -
NLP理论基础与实践task-04卷积神经网络
一、卷积神经网络 原文链接 https://www.jianshu.com/p/49b70f6480d1 卷积神经网络可以简单地理解为,用滤波器(Filter)将相邻像素之间的"轮廓"过滤出来。 卷积(Convolution) 卷积的滤波器(Filter)是如何工作的呢?以下图,一个6x6的图片被一个3x3的滤波器(可以看成一个窗口)卷积为例,3x3的滤波器先和6x6的图片最左上角的3x3矩阵...转载 2019-08-14 21:16:40 · 143 阅读 · 0 评论 -
NLP理论基础和实践task-02文本表示
一、词袋模型概念 缺点:没有考虑文本中词与词之间的上下文关系(即不考虑词语之间的顺序) 离散 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。 高维 词袋模型由于大部分文本都只会用词汇表中很少一部分的词,因此词向量中有大量的0,所以是向量的维度是很大的。 稀疏 词袋模型由于大部分文本都只会用词汇表中很少一部分的词,因此词向量中有大量的0,也就是说词向量是稀疏的。 二...原创 2019-08-09 16:50:46 · 263 阅读 · 0 评论 -
NLP理论基础和实践task-01
NLP理论基础和实践 一、TensorFlow安装 Tensorflow的主要优势有以下几点:高度的灵活性、支持python语言开发、可视化效果好、功能更加强大、运行效率高、强大的社区。 本文以Windows安装为例,参考资料来自http://www.tensorflownews.com/2018/03/28/tensorflow-windows-install/ 安装TensorFlow之前需...原创 2019-08-07 14:26:58 · 155 阅读 · 0 评论