自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 达梦数据库常见问题

达梦数据常见问题

2022-10-28 12:39:43 2698 1

原创 mongodb安装之后使用robo3t连接出现 Failed to load list of database Failed to execute “listdatabases“

安装mongoDB过程中使用可视化工具robo3T进行数据库时出现**Failed to load list of database Failed to execute “listdatabases”**的错误,在网上查找是因为权限的问题,需要添加root用户使用管理员权限运行cmd,进入mongo的目录之后输入mongo添加root用户之后就可以进行数据库的访问添加root之后robo3T仍然报错,发现是版本的问题,mongo数据库使用的是4.4版本,而robo3T使用的是1.1的版本,把robo

2020-08-10 13:53:50 2009

原创 Task4 建模调参

Task4 建模调参1、线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;通过作图我们发现数据的标签(price)呈现长尾分布,不利于我们的建模预测。原因是很多模型都假设数据误差项符合正态分布,而长尾分布的数据违背了这一假设。2、模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;3...

2020-04-01 19:43:28 151

原创 Task3 特征工程

Task3 特征工程1.异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;2.特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);3.数据分桶:等频分桶;等距分桶;Best-KS 分桶(类似利用基尼指数进行二分类);卡方分桶;4.缺失值处理:不处理(针对类似 XGBoost ...

2020-03-28 14:56:36 121

原创 Task2 数据分析

Datawhale 零基础入门数据挖掘-Task2 数据分析赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX观察数据维度1.载入各种数据科学以及可视化库:数据科学库 pa...

2020-03-23 18:52:25 171

原创 NLP理论基础和实践Task07 BERT

一、Transformer的原理参考文献 https://www.jianshu.com/p/e40dad747651基于假设:一个词在句子中的意思,与上下文(语境)有关。与哪些词有关呢?Transformer就是:利用点积将句子中所有词的影响当成权重都考虑了进去。Transform模型是与RNN和CNN都完全不同的思路。相比Transformer,RNN/CNN的问题:RNN序列化...

2019-08-21 20:09:45 237

原创 NLP理论基础与实践task-06 Attention原理

一、基本的Attention原理attention即为注意力,人脑在对于的不同部分的注意力是不同的。需要attention的原因是非常直观的,比如,我们期末考试的时候,我们需要老师划重点,划重点的目的就是为了尽量将我们的attention放在这部分的内容上,以期用最少的付出获取尽可能高的分数;再比如我们到一个新的班级,吸引我们attention的是不是颜值比较高的人?普通的模型可以看成所有部分的...

2019-08-17 21:23:29 295

原创 NLP理论基础和实践task-05循环和递归神经网络

一、RNN的结构循环神经网络(Recurrent Neural Network,RNN)DNN以及CNN在对样本提取特征的时候,样本与样本之间是独立的,而有些情况是无法把每个输入的样本都看作是独立的,比如NLP中的此行标注问题,ASR中每个音素都和前一个音素是相关的,这类问题可以看做一种带有时序序列的问题,无法将样本看做是相互独立的,因此单纯的DNN和CNN解决这类问题就比较棘手。此时RNN就是...

2019-08-16 15:56:02 347

转载 NLP理论基础与实践task-04卷积神经网络

一、卷积神经网络原文链接 https://www.jianshu.com/p/49b70f6480d1卷积神经网络可以简单地理解为,用滤波器(Filter)将相邻像素之间的"轮廓"过滤出来。卷积(Convolution)卷积的滤波器(Filter)是如何工作的呢?以下图,一个6x6的图片被一个3x3的滤波器(可以看成一个窗口)卷积为例,3x3的滤波器先和6x6的图片最左上角的3x3矩阵...

2019-08-14 21:16:40 137

原创 NLP理论基础和实践task-03神经网络基础

一、神经网络的基本概念1. 前馈神经网络前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。前馈神经网络(feedforward neural network)是种比较简单的神经网络,只有输入层input layer (黄)、隐藏层hidden layer (绿)、输出层output layer (红)...

2019-08-12 11:29:43 184

原创 NLP理论基础和实践task-02文本表示

一、词袋模型概念缺点:没有考虑文本中词与词之间的上下文关系(即不考虑词语之间的顺序)离散词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。高维词袋模型由于大部分文本都只会用词汇表中很少一部分的词,因此词向量中有大量的0,所以是向量的维度是很大的。稀疏词袋模型由于大部分文本都只会用词汇表中很少一部分的词,因此词向量中有大量的0,也就是说词向量是稀疏的。二...

2019-08-09 16:50:46 261

原创 NLP理论基础和实践task-01

NLP理论基础和实践一、TensorFlow安装Tensorflow的主要优势有以下几点:高度的灵活性、支持python语言开发、可视化效果好、功能更加强大、运行效率高、强大的社区。本文以Windows安装为例,参考资料来自http://www.tensorflownews.com/2018/03/28/tensorflow-windows-install/安装TensorFlow之前需...

2019-08-07 14:26:58 150

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除