- 博客(55)
- 收藏
- 关注
原创 NLP热身赛-docker提交
目的根据Datawhale大佬们提供的baseline训练模型,并通过docker的方式提交到天池比赛,获得自己的分数。通过这次目标导向的学习促进自己对知识的探索和学习赛题要求赛事信息:天池->全球人工智能技术创新大赛【热身赛二】Datawhale提供的baseline(特别感谢~):地址添加链接描述跑通Baseline准备环节win8下载Docker安装问题1.quickstart的快捷方式打不开-问题由于安装过git解决:映射到安装的git/bin目录就好2.docker 一
2021-02-22 01:23:07 204
原创 NLP小白学习路线(4)——Contextual Word Embeddings
上一篇我们介绍了Subword Models 模型这一篇将介绍ELMO,GPT &BERTSubword Models 模型是为了解决单词不存在于词汇库中的情况OOV(out-of-vocabulary)。并且对于单词的变换,比如副词,加-ed,-ing这种单词的变形(morphology)处理的问题。并在Word embedding最小单位为单词的基础上,进一步缩小粒度为Character embedding 以单词字符为最小粒度ELMO我们会发现word2vec无法解决一词多义的问
2020-07-03 21:23:18 421
原创 NLP小白学习路线(3)——Subword Models
上一篇我们基于窗口的共现矩阵的方法,引入GloVe,并介绍了内部和外部词向量评估机制。这一篇将介绍Subword Models 模型之前介绍的 word2vec 和 glove模型都是基于word单词作为基本单位的,这种方式虽然能够很好的对词库中每一个词进行向量表示,然而会出现冷启动的问题。也就是单词不存在于词汇库中的情况OOV(out-of-vocabulary)。并且对于单词的变换,比如副词,加-ed,-ing这种单词的变形(morphology)处理的也不好。出于这个目的我们引入word
2020-06-30 22:47:02 281
原创 NLP小白学习路线(2)——Glove模型
上一篇我们讲到了,怎么让计算机理解人类的语言,那就是构建让计算机可以理解的one-hot向量,但是由于语料库太庞大,one-hot容易导致维度灾难,并且不能计算词之间的相似性,所以我们引入了Word Embedding的概念。Word Embedding 在one-hot的基础上压缩了描述语料库的维度,从原先的V-dim降低为了自己设定的K值,Word Embedding是Word2Vecmo模型的中间产物,是在不断最小化损失函数时候,不断迭代更新生成的。PS: word2vec的经典之作 Xin R
2020-06-27 23:07:15 394
原创 NLP小白学习路线(1)——Word Embedding
首先我们要先从机器怎么了解人类的语言说起,对人来说一个单词就是一个单词,但是对计算机来说却不是这样,因为机器是只能理解0和1指令的,那么计算机是如何处理单词或者文本的呢?最简单最直观的做法就是把单词(word)按照某种规则表达成一个向量(vector),y这就是Word Representation。one-hot encoding表达向量?比如:假设我们有这样的两个文本:D1: I like greenD2: I like red那么针对这两个文本所组成的语料库而言,我们会得到如下所示的字典:[
2020-06-24 18:38:00 551
原创 从0开始入门数据挖掘(四)-模型融合
本文将以天池的一道赛题入手,详细介绍数据挖掘的步骤,实际操作性强。适合人群:想入门数据挖掘,入门数据挖掘类比赛,熟悉python,pandas,Numpy等库运用性选手本文是从0开始入门数据挖掘系列文章的第三篇,第一篇介绍的是EDA部分,也就是数据探索性分析,第二篇介绍了特征工程,这一篇文章将给大家介绍模型和调参。内容介绍:模型融合的几种方式:简单加权融合: 回归(分类概率):...
2020-04-04 20:09:38 372
原创 从0开始入门数据挖掘(三)-模型和调参
本文将以天池的一道赛题入手,详细介绍数据挖掘的步骤,实际操作性强。适合人群:想入门数据挖掘,入门数据挖掘类比赛,熟悉python,pandas,Numpy等库运用性选手本文是从0开始入门数据挖掘系列文章的第三篇,第一篇介绍的是EDA部分,也就是数据探索性分析,第二篇介绍了特征工程,这一篇文章将给大家介绍模型和调参。内容介绍:简单模型模型性能验证嵌入式特征选择(继上篇的特征选择-过滤...
2020-03-31 23:07:06 329
原创 贝叶斯调参——bayes_opt
一、简介贝叶斯调参主要思想是,给定优化的目标函数(广义的函数,只需指定输入和输出即可,无需知道内部结构以及数学性质),通过不断地添加样本点来更新目标函数的后验分布他与常规的网格搜索或者随机搜索的区别是:贝叶斯调参采用高斯过程,考虑之前的参数信息,不断地更新先验;网格搜索未考虑之前的参数信息贝叶斯调参迭代次数少,速度快;网格搜索速度慢,参数多时易导致维度爆炸贝叶斯调参针对非凸问题依然稳健...
2020-03-31 19:58:55 6228 1
原创 从0开始入门数据挖掘(二)-特征工程
本文将以天池的一道赛题入手,详细介绍数据挖掘的步骤,实际操作性强。适合人群:想入门数据挖掘,入门数据挖掘类比赛,熟悉python,pandas,Numpy等库运用性选手本文是从0开始入门数据挖掘系列文章的第二篇,第一篇介绍的是EDA部分,也就是数据探索性分析。这一篇文章将给大家介绍特征工程。特征工程基础知识特征工程(Feature Engineering): 将数据转换成为更好地表达潜在...
2020-03-28 20:14:22 420
原创 ImportError: DLL load failed:找不到指定的模块
问题描述:在运行import seaborn 时报错ImportError: DLL load failed:找不到指定的模块找到解决方案:是卸掉原来的numpy, scipy和seaborn然而在执行uninstall过程中,如果报了拒绝访问的错,如下图,是因为开着Jupyter notebook会有一些插件例如numpy在后台运行,干扰安装。于是关闭了运行的python,再用pip...
2020-03-26 19:49:28 264
原创 从0开始入门数据挖掘(一)-EDA
本文将以天池的一道赛题入手,详细介绍数据挖掘的步骤,实际操作性强。适合人群:想入门数据挖掘,入门数据挖掘类比赛,熟悉python,pandas,Numpy等库运用性选手本文的结构为:准备工作(赛题的报名、数据的下载等。。。)数据挖掘赛题的理解数据探索性分析1.准备工作该赛题是关于二手车交易价格预测赛题网址:https://tianchi.aliyun.com/competi...
2020-03-24 21:53:12 266
原创 LeetCode 945. 使数组唯一的最小增量
本文为打卡刷Leetcode题系列文章, 这个系列文章的目录都是按照如下四个部分构成题目链接题目描述代码初步这部分写的是我在刷题过程中的思路,相信在拿到题目就立马参考大神们的思路写代码是不会有进步的,我思故我在,思考让我进步!!代码欣赏这一部分po出优秀的解题答案,这里我们可以学习大神们的解题思路,进而内化成自己的题目链接https://leetcode-cn.com/pro...
2020-03-22 23:17:23 105
原创 LeetCode 365. 水壶问题
本文为打卡刷Leetcode题系列文章, 这个系列文章的目录都是按照如下四个部分构成题目链接题目描述代码初步这部分写的是我在刷题过程中的思路,相信在拿到题目就立马参考大神们的思路写代码是不会有进步的,我思故我在,思考让我进步!!代码欣赏这一部分po出优秀的解题答案,这里我们可以学习大神们的解题思路,进而内化成自己的——————————————————————————————————...
2020-03-21 16:04:23 261
原创 Leetcode 836. 矩形重叠
本文为打卡刷Leetcode题系列文章, 这个系列文章的目录都是按照如下四个部分构成题目链接题目描述代码初步这部分写的是我在刷题过程中的思路,相信在拿到题目就立马参考大神们的思路写代码是不会有进步的,我思故我在,思考让我进步!!代码欣赏这一部分po出优秀的解题答案,这里我们可以学习大神们的解题思路,进而内化成自己的。题目链接https://leetcode-cn.com/pr...
2020-03-20 23:18:25 152
原创 LeetCode 6. Z 字形变换
本文为打卡刷Leetcode题系列文章, 这个系列文章的目录都是按照如下四个部分构成题目链接题目描述代码初步这部分写的是我在刷题过程中的思路,相信在拿到题目就立马参考大神们的思路写代码是不会有进步的,我思故我在,思考让我进步!!代码欣赏这一部分po出优秀的解题答案,这里我们可以学习大神们的解题思路,进而内化成自己的。题目链接https://leetcode-cn.com/pr...
2020-03-18 23:41:42 106
原创 Leetcode 面试题 01.06. 字符串压缩
本文为打卡刷Leetcode题系列文章, 这个系列文章的目录都是按照如下四个部分构成题目链接题目描述代码初步这部分写的是我在刷题过程中的思路,相信在拿到题目就立马参考大神们的思路写代码是不会有进步的,我思故我在,思考让我进步!!代码欣赏这一部分po出优秀的解题答案,这里我们可以学习大神们的解题思路,进而内化成自己的。题目链接https://leetcode-cn.com/pr...
2020-03-17 23:14:02 152
原创 LeetCode 5. 最长回文子串
本文为打卡刷Leetcode题系列文章, 这个系列文章的目录都是按照如下四个部分构成题目链接题目描述代码初步这部分写的是我在刷题过程中的思路,相信在拿到题目就立马参考大神们的思路写代码是不会有进步的,我思故我在,思考让我进步!!代码欣赏这一部分po出优秀的解题答案,这里我们可以学习大神们的解题思路,进而内化成自己的。题目链接https://leetcode-cn.com/pr...
2020-03-16 22:33:12 154
原创 LeetCode300. 最长上升子序列
本文为打卡刷Leetcode题系列文章, 这个系列文章的目录都是按照如下四个部分构成题目链接题目描述代码初步这部分写的是我在刷题过程中的思路,相信在拿到题目就立马参考大神们的思路写代码是不会有进步的,我思故我在,思考让我进步!!代码欣赏这一部分po出优秀的解题答案,这里我们可以学习大神们的解题思路,进而内化成自己的。题目链接https://leetcode-cn.com/pro...
2020-03-14 22:07:37 108
原创 Machine-Learning-笔记 -Bagging&Boosting
title: 猫眼电影评论的爬取和分析date: 2019-03-09 22:14:23tags:- Machine Learning- Decision Treemathjax: trueheader-img: “5.gif”本文在猫眼电影上爬取了《流浪地球》的上万评论,并对其评论进行分析爬虫-爬取数据找到评论网页地址先打开猫眼官网找到《流浪地球》的介绍页面:https:/...
2020-03-14 15:21:25 368
原创 数据结构与算法(数组_栈_队列_链表_字符串)的实现和实践
前文整理一下最近学的数据结构与算法的笔记。其实一直都有断断续续的学数据结构,但每次都是零碎的,这次想把之前学习的内容串起来,形成一个整体。新年希望能把自己的学习路径记录下来,最好能整理成体系(给自己挖坑,不知道什么时候能填:)适用人群:想学习数据结构与算法的coder们~正文:这篇文章整理的是下图标红的部分,本文会按照代码实现数据结构和实践两部分,分别对数组,线性表,栈,队列,链表,字...
2020-02-15 20:43:33 256
原创 机器学习-贝叶斯-task05
贝叶斯理论:贝叶斯python实现:from sklearn.naive_bayes import GaussianNBfrom sklearn.datasets import load_irisimport pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitiris ...
2020-01-20 20:55:24 212
原创 如何上传文件到github
本篇文章介绍了怎么把代码提交到github上。目标人群:已经有github账号且电脑已安装git软件,想要将自己的代码上传到github上的人群上传文件到github分六步走:github上创建仓库建立本地仓库(create directory, git init)将文件添加到仓库(git add. )添加到仓库的文件进行提交(git commit -m)关联github仓库(git...
2020-01-12 23:00:30 223
原创 机器学习-task01
机器学习笔记01机器学习模型机器学习 = 数据(data) + 模型(model) + 优化方法(optimal strategy)一个机器学习的任务大致可以分以下四步走:第一步:选择机器学习算法第二步:机器学习损失函数第三步:最小化损失函数第四步:验证机器学习算法好坏第一步:选择机器学习算法根据实际的问题,先判断分类,聚类还是回归问题,再选择如下常见的机器学习算法。常见的机器...
2020-01-06 20:53:08 239
原创 python实现2048
本篇文章是利用python 实现2048小游戏目的:为了提高自己的编程思路环境:win8+python3.6+curses模块 Pycharm适用人群:python入门+想用python做点事情的朋友们大家可能都玩过2048,我记得那时候还蛮火的。不过那个时候我还没有接触编程,根本想不到自己今天还会写代码。。正文游戏规则:玩家通过 w s a d 控制数字移动方向,达成 2048 这个...
2020-01-04 17:59:48 1580
原创 LeetCodeWithPython 168. Excel表列名称
题目链接https://leetcode-cn.com/problems/majority-element/题目描述升级打怪怪思路: 用哈希表表存储数字以及对应的个数,拿middest这个变量去跟n/2比较。返回众数middest。class Solution(object): def majorityElement(self, nums): """ ...
2019-07-24 22:28:53 171
原创 LeetCodeWithPython 168. Excel表列名称
题目链接https://leetcode-cn.com/problems/excel-sheet-column-title/题目描述代码初步class Solution(object): def convertToTitle(self, n): """ :type n: int :rtype: str """ ...
2019-07-17 23:16:34 143
原创 LeetCodeWithPython 167. 两数之和 II - 输入有序数组
题目链接https://leetcode-cn.com/problems/two-sum-ii-input-array-is-sorted题目描述代码初步我的思路:利用哈希表将列表的值作为key,索引作为value。判断target - numbers[i]]是否在哈希表中,可知是否有相应的两个值相加等于目标值问题:hash_table[numbers[i]] = i 必须放在try...
2019-07-14 08:22:08 150
原创 LeetCodeWithPython 160. 相交链表
题目链接https://leetcode-cn.com/problems/intersection-of-two-linked-lists/题目描述代码初步思路:两个单链表的状态有两种,一种不相交,另一种相交。1.当相交时,我们假设相交点为c,链表A头部到c的距离为m,链表B到c的距离为n,c到两个链表的尾部距离为x。用两个指针依次循环遍历两个链表,如果有一个先遍历完,则让它指...
2019-07-11 23:24:41 115
原创 LeetCodeWithPython 155. 最小栈
题目链接https://leetcode-cn.com/problems/min-stack/题目描述代码初步思路:借用一个辅助栈min_stack,用于存储stack中最小值:push:每当push新值进来时,如果“小于等于”min_stack栈顶值,则一起push到min_stack,即更新了最小值;pop:判断pop出去的元素值是否是min_stack栈顶元素值(即最小值...
2019-07-10 07:31:27 174
原创 LeetCodeWithPython 141. 环形链表
题目链接https://leetcode-cn.com/problems/linked-list-cycle/题目描述代码初步思路:运用hash_table将当前节点放在哈希表中,如果后面遍历链表与哈希表的key作比较,存在则存在闭链。# Definition for singly-linked list.# class ListNode(object):# def...
2019-07-08 19:46:10 147
原创 LeetCodeWithPython 136. 只出现一次的数字
题目链接https://leetcode-cn.com/problems/single-number/题目描述代码欣赏方法1:哈希表思路:用哈希表表存储数字以及对应的个数实现:1.遍历nums 中的每一个元素2.查找hash_table 中是否有当前元素的键3.如果没有,将当前元素作为键插入hash_table4.最后, hash_table 中仅有一个元素,用 popit...
2019-07-04 23:14:56 125
原创 LeetCodeWithPython 125. 验证回文串
题目链接https://leetcode-cn.com/problems/valid-palindrome题目描述代码初步思路1:双向判断死否为回文串。首先需要将非字母和数字的字符扫描干净。再分别从头和尾进行比较class Solution: def isPalindrome(self, s: str) -> bool: left = 0 ...
2019-06-27 22:34:43 121
原创 LeetCodeWithPython 122. 买卖股票的最佳时机 II
题目链接https://leetcode-cn.com/problems/best-time-to-buy-and-sell-stock-ii/题目描述代码初步方法1: 峰谷法参考leetcode官方给出的思路算法假设给定的数组为:[7, 1, 5, 3, 6, 4]如果我们在图表上绘制给定数组中的数字,我们将会得到:我们的兴趣点落在连续的峰和谷上。关键是我们需要考虑到...
2019-06-24 22:46:58 107
原创 LeetCodeWithPython 121. 买卖股票的最佳时机
题目地址https://leetcode-cn.com/problems/best-time-to-buy-and-sell-stock题目描述代码初步自己的思路还是停留在暴力破解上,暴力破解需要的时间复杂度为O(n^2), 空间复杂度:O(1)。只使用了一个变量。当码好暴力破解python版代码时,兴匆匆的跑去提交,最后宣告超时。class Solution(object): ...
2019-06-23 23:39:30 249
原创 LeetCodeWithPython 119.杨辉三角 II
题目地址https://leetcode-cn.com/problems/pascals-triangle-ii/题目描述代码初步思路:像杨辉三角I一样,将每一行用数组存储,然后放在一个大的数组里面。最后返回数组的最后一个就是第k行。问题:时间复杂度和空间复杂度都比较大class Solution(object): def getRow(self, rowIndex):...
2019-06-21 23:15:19 130
原创 LeetCodeWithPython 118. 杨辉三角
题目地址https://leetcode-cn.com/problems/pascals-triangle题目描述代码初步思路:采用动态规划方法,首先生成整个triangle列表,三角形里的每一行按照列表形式存储,将每一行的首位和末尾填充为1,中间位置上的值分别根据上一列的值求出。代码欣赏class Solution(object): def generate(self,...
2019-06-18 07:13:48 96
原创 LeetCodeWithPython 112. 路径总和
题目地址https://leetcode-cn.com/problems/path-sum题目描述代码初步思路:递归这里采用sum 倒减的方式,利用递归,遍历整棵树:会出现如下两种情况 1.如果当前节点不是叶子,对它的所有孩子节点,递归调用 hasPathSum 函数,其中 sum 值减去当前节点的权值;2.如果当前节点是叶子,检查 sum 值是否为 0,也就是是否找到了给定的目...
2019-06-17 07:20:55 160
原创 LeetCodeWithPython 111. 二叉树的最小深度
题目地址https://leetcode-cn.com/problems/minimum-depth-of-binary-tree题目描述代码初步代码欣赏# Definition for a binary tree node.# class TreeNode(object):# def __init__(self, x):# self.val = x# ...
2019-06-13 22:45:29 199
原创 LeetCodeWithPython 110. 平衡二叉树
题目地址https://leetcode-cn.com/problems/balanced-binary-tree/题目描述代码初步思路:分别计算左右两边子树的高度,最后判断左右子数的高度差的绝对值是否不超过1。问题:超时emmm(( ▼-▼ )# Definition for a binary tree node.# class TreeNode(object):# ...
2019-06-12 22:28:15 268
原创 LeetCodeWithPython 108. 将有序数组转换为二叉搜索树
题目地址https://leetcode-cn.com/problems/convert-sorted-array-to-binary-search-tree/题目描述代码初步拿到这个题的时候,心里没有任何想法。后来看评论才知道,这题的解题核心是:取数组中间的元素作为根结点,将数组分为两部分,分别对两部分用递归的方法构建左右子树。代码欣赏本题采用了分治,递归算法。分治的思想是将一个问...
2019-06-10 07:09:06 174
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人