机器学习
文章平均质量分 89
yuting_
这个作者很懒,什么都没留下…
展开
-
NLP热身赛-docker提交
目的根据Datawhale大佬们提供的baseline训练模型,并通过docker的方式提交到天池比赛,获得自己的分数。通过这次目标导向的学习促进自己对知识的探索和学习赛题要求赛事信息:天池->全球人工智能技术创新大赛【热身赛二】Datawhale提供的baseline(特别感谢~):地址添加链接描述跑通Baseline准备环节win8下载Docker安装问题1.quickstart的快捷方式打不开-问题由于安装过git解决:映射到安装的git/bin目录就好2.docker 一原创 2021-02-22 01:23:07 · 150 阅读 · 0 评论 -
NLP小白学习路线(4)——Contextual Word Embeddings
上一篇我们介绍了Subword Models 模型这一篇将介绍ELMO,GPT &BERTSubword Models 模型是为了解决单词不存在于词汇库中的情况OOV(out-of-vocabulary)。并且对于单词的变换,比如副词,加-ed,-ing这种单词的变形(morphology)处理的问题。并在Word embedding最小单位为单词的基础上,进一步缩小粒度为Character embedding 以单词字符为最小粒度ELMO我们会发现word2vec无法解决一词多义的问原创 2020-07-03 21:23:18 · 370 阅读 · 0 评论 -
NLP小白学习路线(3)——Subword Models
上一篇我们基于窗口的共现矩阵的方法,引入GloVe,并介绍了内部和外部词向量评估机制。这一篇将介绍Subword Models 模型之前介绍的 word2vec 和 glove模型都是基于word单词作为基本单位的,这种方式虽然能够很好的对词库中每一个词进行向量表示,然而会出现冷启动的问题。也就是单词不存在于词汇库中的情况OOV(out-of-vocabulary)。并且对于单词的变换,比如副词,加-ed,-ing这种单词的变形(morphology)处理的也不好。出于这个目的我们引入word原创 2020-06-30 22:47:02 · 232 阅读 · 0 评论 -
NLP小白学习路线(2)——Glove模型
上一篇我们讲到了,怎么让计算机理解人类的语言,那就是构建让计算机可以理解的one-hot向量,但是由于语料库太庞大,one-hot容易导致维度灾难,并且不能计算词之间的相似性,所以我们引入了Word Embedding的概念。Word Embedding 在one-hot的基础上压缩了描述语料库的维度,从原先的V-dim降低为了自己设定的K值,Word Embedding是Word2Vecmo模型的中间产物,是在不断最小化损失函数时候,不断迭代更新生成的。PS: word2vec的经典之作 Xin R原创 2020-06-27 23:07:15 · 341 阅读 · 0 评论 -
NLP小白学习路线(1)——Word Embedding
首先我们要先从机器怎么了解人类的语言说起,对人来说一个单词就是一个单词,但是对计算机来说却不是这样,因为机器是只能理解0和1指令的,那么计算机是如何处理单词或者文本的呢?最简单最直观的做法就是把单词(word)按照某种规则表达成一个向量(vector),y这就是Word Representation。one-hot encoding表达向量?比如:假设我们有这样的两个文本:D1: I like greenD2: I like red那么针对这两个文本所组成的语料库而言,我们会得到如下所示的字典:[原创 2020-06-24 18:38:00 · 502 阅读 · 0 评论 -
从0开始入门数据挖掘(四)-模型融合
本文将以天池的一道赛题入手,详细介绍数据挖掘的步骤,实际操作性强。适合人群:想入门数据挖掘,入门数据挖掘类比赛,熟悉python,pandas,Numpy等库运用性选手本文是从0开始入门数据挖掘系列文章的第三篇,第一篇介绍的是EDA部分,也就是数据探索性分析,第二篇介绍了特征工程,这一篇文章将给大家介绍模型和调参。内容介绍:模型融合的几种方式:简单加权融合: 回归(分类概率):...原创 2020-04-04 20:09:38 · 314 阅读 · 0 评论 -
从0开始入门数据挖掘(三)-模型和调参
本文将以天池的一道赛题入手,详细介绍数据挖掘的步骤,实际操作性强。适合人群:想入门数据挖掘,入门数据挖掘类比赛,熟悉python,pandas,Numpy等库运用性选手本文是从0开始入门数据挖掘系列文章的第三篇,第一篇介绍的是EDA部分,也就是数据探索性分析,第二篇介绍了特征工程,这一篇文章将给大家介绍模型和调参。内容介绍:简单模型模型性能验证嵌入式特征选择(继上篇的特征选择-过滤...原创 2020-03-31 23:07:06 · 269 阅读 · 0 评论 -
贝叶斯调参——bayes_opt
一、简介贝叶斯调参主要思想是,给定优化的目标函数(广义的函数,只需指定输入和输出即可,无需知道内部结构以及数学性质),通过不断地添加样本点来更新目标函数的后验分布他与常规的网格搜索或者随机搜索的区别是:贝叶斯调参采用高斯过程,考虑之前的参数信息,不断地更新先验;网格搜索未考虑之前的参数信息贝叶斯调参迭代次数少,速度快;网格搜索速度慢,参数多时易导致维度爆炸贝叶斯调参针对非凸问题依然稳健...原创 2020-03-31 19:58:55 · 6033 阅读 · 1 评论 -
从0开始入门数据挖掘(二)-特征工程
本文将以天池的一道赛题入手,详细介绍数据挖掘的步骤,实际操作性强。适合人群:想入门数据挖掘,入门数据挖掘类比赛,熟悉python,pandas,Numpy等库运用性选手本文是从0开始入门数据挖掘系列文章的第二篇,第一篇介绍的是EDA部分,也就是数据探索性分析。这一篇文章将给大家介绍特征工程。特征工程基础知识特征工程(Feature Engineering): 将数据转换成为更好地表达潜在...原创 2020-03-28 20:14:22 · 370 阅读 · 0 评论 -
从0开始入门数据挖掘(一)-EDA
本文将以天池的一道赛题入手,详细介绍数据挖掘的步骤,实际操作性强。适合人群:想入门数据挖掘,入门数据挖掘类比赛,熟悉python,pandas,Numpy等库运用性选手本文的结构为:准备工作(赛题的报名、数据的下载等。。。)数据挖掘赛题的理解数据探索性分析1.准备工作该赛题是关于二手车交易价格预测赛题网址:https://tianchi.aliyun.com/competi...原创 2020-03-24 21:53:12 · 239 阅读 · 0 评论 -
Machine-Learning-笔记 -Bagging&Boosting
title: 猫眼电影评论的爬取和分析date: 2019-03-09 22:14:23tags:- Machine Learning- Decision Treemathjax: trueheader-img: “5.gif”本文在猫眼电影上爬取了《流浪地球》的上万评论,并对其评论进行分析爬虫-爬取数据找到评论网页地址先打开猫眼官网找到《流浪地球》的介绍页面:https:/...原创 2020-03-14 15:21:25 · 342 阅读 · 0 评论 -
机器学习-贝叶斯-task05
贝叶斯理论:贝叶斯python实现:from sklearn.naive_bayes import GaussianNBfrom sklearn.datasets import load_irisimport pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitiris ...原创 2020-01-20 20:55:24 · 189 阅读 · 0 评论 -
机器学习-task01
机器学习笔记01机器学习模型机器学习 = 数据(data) + 模型(model) + 优化方法(optimal strategy)一个机器学习的任务大致可以分以下四步走:第一步:选择机器学习算法第二步:机器学习损失函数第三步:最小化损失函数第四步:验证机器学习算法好坏第一步:选择机器学习算法根据实际的问题,先判断分类,聚类还是回归问题,再选择如下常见的机器学习算法。常见的机器...原创 2020-01-06 20:53:08 · 216 阅读 · 0 评论