- 博客(49)
- 资源 (4)
- 收藏
- 关注
原创 Datawhale 零基础入门风控 task3 特征工程
良好的开端是成功的一半,好多特征工程可以促使模型得到更高的精度。实际生产过程中的数据不全是干净的,大部分都是dirty的。需要我们做数据填充时间格式处理异常值处理数据分箱Filter特征选择...
2020-09-21 23:14:07 267
原创 Datawhale 零基础入门风控 task2 数据分析
了解数据,熟悉数据,为后续的特征工程做准备首先 导入必要的库其次 中间标签解释对照查看缺失值设置缺失率计算统一处理一批数据变标准化根据y值不同可视化x某个特征的分布...
2020-09-18 22:22:25 190
原创 Datawhale零基础入门金融风控 task-1 初识数据
这次已经是我第n次参加datawhale活动了,每次任务都比较贴合实际生产生活,选题都比较有代表性。硕士毕业后第一次(纪念下)赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。train文件情况
2020-09-15 21:46:22 235
原创 Datawhale 零基础⼊入⻔LeetCode Task04:查找2(3天)
1. 两数之和 15. 三数之和 16. 最接近的三数之和 18. 四数之和 49. 字母异位词分组 149. 直线上最多的点数 219. 存在重复元素 447. 回旋镖的数量
2020-08-28 21:47:05 141
原创 datawhale LeetCode task03:查找
今天问题有点多:No1 搜索插入位置202. 快乐数 205. 同构字符串 242. 有效的字母异位词 290. 单词规律 349. 两个数组的交集 350. 两个数组的交集 II 410. 分割数组的最大值 451. 根据字符出现频率排序 540. 有序数组中的单一元素...
2020-08-25 21:46:26 165
原创 datawhale 动手数据分析 task04:数据可视化
首先 可视化展示泰坦尼克号数据集中男女中生存人数分布情况然后可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图接着可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况最后 可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况...
2020-08-25 21:35:40 196
原创 Datawhale leetcode day1 pow(x,n)
????文字题解前言本题的方法被称为「快速幂算法」,有递归和迭代两个版本。这篇题解会从递归版本的开始讲起,再逐步引出迭代的版本。当指数 nn 为负数时,我们可以计算 x^{-n}x−n 再取倒数得到结果,因此我们只需要考虑 nn 为自然数的情况。快速幂解析(二进制角度):快速幂解析(分治法角度):最大子序和多数元素...
2020-08-17 08:32:45 121
原创 Mindspore windows安装
基本都是用docker but我不想安装docker,因为以前安虚拟机的时候关闭了那个(忘记叫什么的虚拟功能 懒得再开了)我用的whl文件安装的:官网下载所需要的版本,然后放进指定目录 pip install + 文件 就ok了但是遇到一些很无语的错误,显示有些文件安装不了 或者卸载不了,在查阅一些资料后发现原来是mindspore现在在windows上面只支持python3.75版本的,虽然我的是3.7但是仍旧有错误。就conda create -n {name} python=3.7.5 创
2020-08-15 16:32:47 648
原创 Datawhale 零基础入门python Task9:文件与文件系统
1. 文件与文件系统打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)Open file and return a stream. Raise OSError upon failure. file: 必需,文件路径(相对或者绝对路径)。 mode: 可选,文件打开模式 buffering: 设置缓冲 encoding: 一般使用utf8 .
2020-08-07 21:39:09 121
原创 Datawhale python Task9:文件与文件系统
1. 文件与文件系统打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)Open file and return a stream. Raise OSError upon failure. file: 必需,文件路径(相对或者绝对路径)。 mode: 可选,文件打开模式 buffering: 设置缓冲 encoding: 一般使用utf8 .
2020-08-07 21:37:43 127
原创 Datawhale python Task8:模块与datetime模块
datetime模块datetime 是 Python 中处理日期的标准模块,它提供了 4 种对日期和时间进行处理的类:datetime、date、time和timedelta。1. datetime类class datetime(date): def __init__(self, year, month, day, hour, minute, second, microsecond, tzinfo) pass def now(cls, tz=None):..
2020-08-07 21:36:24 193
原创 Datawhale 零基础⼊入⻔pythonTask08:模块与datetime模块
datetime模块datetime 是 Python 中处理日期的标准模块,它提供了 4 种对日期和时间进行处理的类:datetime、date、time和timedelta。1. datetime类class datetime(date): def __init__(self, year, month, day, hour, minute, second, microsecond, tzinfo) pass def now(cls, tz=None):..
2020-08-07 21:34:15 207
原创 Datawhale python-Task7 类 、对象与魔法方法
魔法方法魔法方法总是被双下划线包围,例如__init__。魔法方法是面向对象的 Python 的一切,如果你不知道魔法方法,说明你还没能意识到面向对象的 Python 的强大。魔法方法的“魔力”体现在它们总能够在适当的时候被自动调用。魔法方法的第一个参数应为cls(类方法) 或者self(实例方法)。cls:代表一个类的名称 self:代表一个实例对象的名称1. 基本的魔法方法__init__(self[, ...])构造器,当一个实例被创建的时候调用的初始化方法【例子】.
2020-08-05 21:40:06 194
原创 Datawhale 零基础⼊入⻔python-Task7 类 、对象与魔法方法
类与对象1. 对象 = 属性 + 方法对象是类的实例。换句话说,类主要定义对象的结构,然后我们以类为模板创建对象。类不但包含方法定义,而且还包含所有实例共享的数据。封装:信息隐蔽技术我们可以使用关键字class定义 Python 类,关键字后面紧跟类的名称、分号和类的实现。【例子】class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 1..
2020-08-05 21:38:38 115
原创 Datawhale NLP Task6 基于深度学习的文本分类3
基于深度学习的文本分类学习目标了解Transformer的原理和基于预训练语言模型(Bert)的词表示 学会Bert的使用,具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可.
2020-08-04 20:26:01 87
原创 Datawhale 零基础⼊入⻔NLP Task6 基于深度学习的文本分类3
基于深度学习的文本分类学习目标了解Transformer的原理和基于预训练语言模型(Bert)的词表示 学会Bert的使用,具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可.
2020-08-04 20:23:59 81
原创 Datawhale 入⻔Python-Task6 λ
1. 函数还记得 Python 里面“万物皆对象”么?Python 把函数也当成对象,可以从另一个函数中返回出来而去构建高阶函数,比如:参数是函数 返回值是函数函数的定义函数以def关键词开头,后接函数名和圆括号()。 函数执行的代码以冒号起始,并且缩进。 return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname(parameters): "函数_文档字符串" function_sui
2020-08-02 21:35:52 100
原创 Datawhale 零基础⼊入⻔python-Task6 函数与Lambda表达式
1. 函数还记得 Python 里面“万物皆对象”么?Python 把函数也当成对象,可以从另一个函数中返回出来而去构建高阶函数,比如:参数是函数 返回值是函数函数的定义函数以def关键词开头,后接函数名和圆括号()。 函数执行的代码以冒号起始,并且缩进。 return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname(parameters): "函数_文档字符串" function_sui
2020-08-02 21:34:04 132
原创 Task5 集合字典序列 Datawhale 零基础⼊入⻔Python-
集合Python 中set与dict类似,也是一组key的集合,但不存储value。由于key不能重复,所以,在set中,没有重复的key。注意,key为不可变类型,即可哈希的值。【例子】num = {}print(type(num)) # <class 'dict'>num = {1, 2, 3, 4}print(type(num)) # <class 'set'>1. 集合的创建先创建对象再加入元素。 在创建空集合的时候只能使用s = set
2020-07-31 21:30:24 91
原创 Datawhale 零基础⼊入⻔Python-Task5 字典
字典1. 可变类型与不可变类型序列是以连续的整数为索引,与此不同的是,字典以"关键字"为索引,关键字可以是任意不可变类型,通常用字符串或数值。 字典是 Python 唯一的一个 映射类型,字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型X是不是可变类型的呢?两种方法:麻烦方法:用id(X)函数,对 X 进行某种操作,比较操作前后的id,如果不一样,则X不可变,如果一样,则X可变。 便捷方法:用hash(X),只要不报错,证明X可被哈希,即不可变,反过来不...
2020-07-31 21:27:44 131
原创 datawhale task 4 元组 列表 字符串
元组「元组」定义语法为:(元素1, 元素2, ..., 元素n)小括号把所有元素绑在一起 逗号将每个元素一一分开1. 创建和访问一个元组Python 的元组与列表类似,不同之处在于tuple被创建后就不能对其进行修改,类似字符串。 元组使用小括号,列表使用方括号。 元组与列表类似,也用整数来对它进行索引 (indexing) 和切片 (slicing)。【例子】t1 = (1, 10.31, 'python')t2 = 1, 10.31, 'python'print(t1,
2020-07-28 15:53:39 140
原创 Datawhale 零基础⼊入门python Task04:列表、元组和字符串
字符串字符串1. 字符串的定义Python 中字符串被定义为引号之间的字符集合。 Python 支持使用成对的 单引号 或 双引号。【例子】t1 = 'i love Python!'print(t1, type(t1))# i love Python! <class 'str'>t2 = "I love Python!"print(t2, type(t2))# I love Python! <class 'str'>print(5 + 8) #
2020-07-28 15:51:53 120
原创 Task4 基于深度学习的文本分类1
基于深度学习的文本分类今天将要介绍了FastText的原理和基础使用,并进行相应的实践。然后介绍了通过10折交叉验证划分数据集。与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理 学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷在上一章节,我们介绍几种文本表示方法:One-hot Bag of Words N-gram TF-IDF也
2020-07-27 20:52:31 67
原创 Datawhale 零基础⼊入⻔门NLP -Task 4
深度学习一直都有所了解,但是接触不多,利用几天的课程算是入门了哈~基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理 学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷在上一章节,我们介绍几种文本表示方法:One-hot Bag of Words N-gram TF-IDF也通过sklean进行了相应的实践,相信你
2020-07-27 20:50:06 80
原创 Python入门第一课 变量、运算符与数据类型
变量、运算符与数据类型1. 注释在 Python 中,#表示注释,作用于整行。【例子】单行注释# 这是一个注释print("Hello world")# Hello world''' '''或者""" """表示区间注释,在三引号之间的所有内容被注释【例子】多行注释'''这是多行注释,用三个单引号这是多行注释,用三个单引号这是多行注释,用三个单引号'''print("Hello china") # Hello china"""这是多行注释,用三个双...
2020-07-22 20:59:12 99
原创 Datawhale Python入门课 task1
工欲善其事必先利其器!Python学习啊~变量、运算符与数据类型1. 注释在 Python 中,#表示注释,作用于整行。【例子】单行注释# 这是一个注释print("Hello world")# Hello world''' '''或者""" """表示区间注释,在三引号之间的所有内容被注释【例子】多行注释'''这是多行注释,用三个单引号这是多行注释,用三个单引号这是多行注释,用三个单引号'''print("Hello china") # Hello...
2020-07-22 20:57:39 84
原创 Datawhale NLP入门任务Task2 数据读取与数据分析
前一天,我们了解了赛题的内容和几种解决方案。今天根据之前的思路进行模型延展分析。讲解一些算法的原理和相关知识点,并会给出一定的参考文献供大家深入学习。Task2 数据读取与数据分析本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。学习目标学习使用Pandas读取赛题数据 分析赛题数据的分布规律数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。1.
2020-07-22 20:48:44 149
原创 Datawhale 零基础⼊入⻔NLP-Task2 数据读取与数据分析
这些数据大同小异,在处理细节上需要倍加小心。Task2 数据读取与数据分析本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。学习目标学习使用Pandas读取赛题数据 分析赛题数据的分布规律数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。1import pandas as pd2train_df = pd.read_csv('..
2020-07-22 20:44:15 92
原创 NLP入门课~DAY1 datawhale
NLP入门课~DAY1赛题理解赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据 完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14
2020-07-21 20:55:58 86
原创 Datawhale NLP task1赛题理解
有幸参加了7月Datawhale举办的NLP入门课程,第一章将会对新闻文本分类进行赛题讲解,对赛题数据进行说明,并给出解题思路。赛题理解赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据 完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新
2020-07-21 20:53:10 104
原创 百度七日入门强化学习训练营
一直都有在参加百度7日训练营活动,这次是关于强化学习的~强化学习(RL)初印象Part1 什么是强化学习强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。 核心思想:智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈reward(奖励)来指导更好的动作。注意:从环境中获取的状态,有时候叫state.
2020-06-21 11:52:55 458
原创 Datawhale 零基础⼊入⻔门CV-Task5 模型集成
何为集成方法?集成学习是一种机器学习范式。在集成学习中,我们会训练多个模型(通常称为「弱学习器」)解决相同的问题,并将它们结合起来以获得更好的结果。最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。在集成学习理论中,我们将弱学习器(或基础模型)称为「模型」,这些模型可用作设计更复杂模型的构件。在大多数情况下,这些基本模型本身的性能并不是非常好,这要么是因为它们具有较高的偏置(例如,低自由度模型),要么是因为他们的方差太大导致鲁棒性不强(例如,高自由度模型)。..
2020-06-02 21:13:29 110
原创 Datawhale 零基础⼊入⻔门CV-Task4 模型训练和验证
测试集的数据来选择模型和评估检测的,但是这是一个不公平的过程,因为我们用来进行模型选择和评估的数据是一组相同的数据,拟合的情况肯定很好,但是对于那些没有出现在测试集中的数据没有泛化作用。所以这里我们进一步改进,我们将数据分为:训练集、验证集和测试机。验证集用来选择模型,测试集用来评估假设。显然越高次数的多项式模型越能够适应我们的训练数据集,但是适应训练数据集并不代表着能推广至一般情况。我们应该选择一个更能适应一般情况的模型。如果在模型选择过程中不断重复使用相同的测试数据,这样的话测试数据就变
2020-05-30 20:05:34 148
神经网络与深度学习 邱锡鹏 复旦大学
2019-04-28
深度学习调参总结(英文版)
2019-04-26
matlab机器学习官方ppt
2019-04-26
matlab2017b神经网络使用手册(英文).pdf
2017-11-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人