自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (1)
  • 收藏
  • 关注

原创 综合练习打卡

题目:http://datawhale.club/t/topic/471练习一: 各部门工资最高的员工(难度:中等)SELECT d.department_name, emplyee_name, max_salaryFROM employeeJOIN department d ON employee.department_id = d.department_idJOIN (SELECT department_id, MAX(salary) as max_salary FROM e

2020-12-27 20:30:16 194

原创 SQL学习task5

1 窗口函数1.1 窗口函数概念及基本的使用方法窗口函数也称为OLAP函数。OLAP 是OnLine AnalyticalProcessing 的简称,意思是对数据库数据进行实时分析处理。为了便于理解,称之为窗口函数。常规的SELECT语句都是对整张表进行查询,而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序。窗口函数的通用形式:<窗口函数> OVER ([PARTITION BY <列名>]ORDER BY <排序用列名>)*[]中的内容可以

2020-12-25 23:55:58 167

原创 SQL学习-集合运算

1表的加减法标准 SQL 中,分别对检索结果使用 UNION,INTERSECT, EXCEPT 来将检索结果进行并。表的加法–UNIONUNION 等集合运算符通常都会除去重复的记录.SELECT product_id, product_name FROM product UNIONSELECT product_id, product_name FROM product2;包含重复行的集合运算 UNION ALLUNION 与 OR 谓词使用 UNION 对两个查询

2020-12-22 21:55:00 246

原创 SQL语句学习-视图与子查询

1 视图创建视图CREATE VIEW <视图名称>(<列名1>,<列名2>,...) AS <SELECT语句>修改视图结构ALTER VIEW <视图名> AS <SELECT语句>更新视图内容对于一个视图来说,如果包含以下结构的任意一种都是不可以被更新的:聚合函数 SUM()、MIN()、MAX()、COUNT() 等。DISTINCT 关键字。GROUP BY 子句。HAVING 子句。UNION 或

2020-12-19 11:47:25 206 1

原创 SQL语句学习DAY2

基础查询与排序1 基础查询语句SELECT <列名>,…… FROM <表名> WHERE <条件表达式>;2 对表进行聚合查询聚合函数COUNT:计算表中的记录数(行数)SUM:计算表中数值列中数据的合计值AVG:计算表中数值列中数据的平均值MAX:求出表中任意列中数据的最大值MIN:求出表中任意列中数据的最小值3 对表进行分组GROUP BY语句SELECT <列名1>,<列名2>, <列名3>,

2020-12-17 17:39:11 121

原创 SQL语句学习DAY1

数据库创建CREATE DATABASE <数据库名称>;数据库的使用USE DATABASE <数据库名称>;表的创建CREATE TABLE <表名>(<列名1> <数据类型> <约束>, <列名2> <数据类型> <约束>, … … <表的约束1>,<表的约束2>);表的删除DROP TABLE <表名>; ---删.

2020-12-15 22:12:08 64

原创 修改anaconda Jupyer Notebook 默认文件位置

如图所示,两个地方都要改

2020-08-27 13:53:58 147

原创 资金流入流出预测——时间序列模型

导入工具包library(plyr)library(dplyr)library(forecast)library(data.table)library(tseries)options(warn=-1)读取数据文件user_balance=read.csv("user_balance_table.csv")user_balance$report_date=as.Date(as.character(user_balance$report_date),format="%Y%m%d")tem

2020-08-22 23:32:46 1724

原创 01 探索性数据分析

数据竞赛基本流程赛题理解探索性数据分析特征工程建模调参模型融合探索性数据分析(Exploratory Data Analysis,EDA)In statistics, exploratory data analysis(EDA) is an approach to analyzing data sets to summarize their maincharacteristics, often with visual methods. A statistical model can be

2020-08-20 21:48:50 153

原创 Python爬虫编程实践task4

了解ajax加载通过chrome的开发者工具,监控网络请求,并分析用selenium完成爬虫具体流程如下:用selenium爬取https://news.qq.com/ 的热点精选[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JOJmgLy3-1587999004128)(attachment:1585810800%281%29.png)]热点精选至少...

2020-04-27 22:55:51 350

原创 Python爬虫编程实践task3

1 session和cookiesSession 是会话的意思,产生在服务端的,用来保存当前用户的会话信息,而 Cookies 是保存在客户端(浏览器),有了 Cookie 以后,客户端(浏览器)再次访问服务端的时候,会将这个 Cookie 带上,这时,服务端可以通过 Cookie 来识别本次请求到底是谁在访问。###实战案例:模拟登录163import timefrom seleniu...

2020-04-25 22:22:46 184

转载 Python爬虫编程实践task2

正则表达式语法正则表达式re库的使用调用方式:import rere库采用raw string类型表示正则表达式,表示为:r’text’,raw string是不包含对转义符再次转义的字符串实战:淘宝商品比价定向爬虫爬取网址:https://s.taobao.com/search?q=书包&js=1&stats_click=search_radio_all%25...

2020-04-23 20:52:19 371

原创 Python爬虫编程实践task1

{“cells”: [{“cell_type”: “markdown”,“metadata”: {},“source”: [“# 互联网、HTTP\n”,“\n”,“## 互联网\n”,“\n”,“互联网也叫因特网(Internet),是指网络与网络所串联成的庞大网络,这些网络以一组标准的网络协议族相连,连接全世界几十亿个设备,形成逻辑上的单一巨大国际网络。它由从地方到全球范围...

2020-04-21 21:02:08 1110

原创 模型融合

内容介绍模型融合大体来说有如下的类型方式:简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在x...

2020-04-03 11:03:48 508

原创 Datawhale零基础入门数据挖掘-Task4 建模调参

赛题:零基础入门数据挖掘 - 二手车交易价格预测参考Task1 赛题理解Task2 EDATask3 特征工程Task4 建模调参Task5 模型融合建模调参内容线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;...

2020-04-01 16:25:16 116

原创 Anaconda镜像源相关命令

临时使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package查看当前使用源conda config --show-sources 恢复默认源conda config --remove-key channels添加清华源conda config --add channels https://mir...

2020-03-31 18:01:38 919 1

原创 特征工程

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。常见的特征工程包括:1.异常值处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;2. 缺失值处理:不处理(针对类似 XGBoost 等树模型);删除(缺失数据太多);插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等;分箱,...

2020-03-28 18:36:56 253

原创 探索性数据分析(Exploratory Data Analysis,简称EDA)

数据竞赛基本流程赛题理解探索性数据分析特征工程建模调参模型融合探索性数据分析(Exploratory Data Analysis,EDA)In statistics, exploratory data analysis(EDA) is an approach to analyzing data sets to summarize their maincharacteristic...

2020-03-22 21:26:22 1555

转载 《动手学深度学习》组队学习打卡Task8——模型微调

微调在前面的一些章节中,我们介绍了如何在只有6万张图像的Fashion-MNIST训练数据集上训练模型。我们还描述了学术界当下使用最广泛的大规模图像数据集ImageNet,它有超过1,000万的图像和1,000类的物体。然而,我们平常接触到数据集的规模通常在这两者之间。假设我们想从图像中识别出不同种类的椅子,然后将购买链接推荐给用户。一种可能的方法是先找出100种常见的椅子,为每种椅子拍摄1,...

2020-02-22 18:50:42 275

转载 《动手学深度学习》组队学习打卡Task8——图像增广

图像增广大规模数据集是成功应用深度神经网络的前提。图像增广(image augmentation)技术通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。图像增广的另一种解释是,随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。例如,我们可以对图像进行不同方式的裁剪,使感兴趣的物体出现在不同位置,从而减轻模型对物体出现位置的依赖性。我们也可...

2020-02-22 18:45:46 251

转载 《动手学深度学习》组队学习打卡Task8——文本分类

文本情感分类文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题:使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析,并有着广泛的应用。同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用。在本节中,我们将应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络,来判断一段不定长的文本序列中包含的是正面还是负面的情绪。后续内...

2020-02-22 18:30:17 187

转载 《动手学深度学习》组队学习打卡Task7——词嵌入进阶

词嵌入进阶在“Word2Vec的实现”一节中,我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型,并通过词向量的余弦相似度搜索近义词。虽然 Word2Vec 已经能够成功地将离散的单词转换为连续的词向量,并能一定程度上地保存词与词之间的近似关系,但 Word2Vec 模型仍不是完美的,它还可以被进一步地改进:子词嵌入(subword embedding):FastText 以固定大...

2020-02-22 18:22:23 178 1

转载 《动手学深度学习》组队学习打卡Task7——词嵌入基础

词嵌入基础我们在“循环神经网络的从零开始实现”一节中使用 one-hot 向量表示单词,虽然它们构造起来很容易,但通常并不是一个好选择。一个主要的原因是,one-hot 词向量无法准确表达不同词之间的相似度,如我们常常使用的余弦相似度。Word2Vec 词嵌入工具的提出正是为了解决上面这个问题,它将每个词表示成一个定长的向量,并通过在语料库上的预训练使得这些向量能较好地表达不同词之间的相似和类...

2020-02-22 18:13:30 145

转载 《动手学深度学习》组队学习打卡Task6——批量归一化和残差网络

批量归一化(BatchNormalization)对输入的标准化(浅层模型)处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近批量归一化(深度模型)利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。1.对全连接层做批量归一化位置:全连接层中的仿射变换和激活函数之间。全连接:x=...

2020-02-19 19:31:26 188

转载 《动手学深度学习》组队学习打卡Task5——卷积神经网络进阶

深度卷积神经网络(AlexNet)LeNet: 在大的真实数据集上的表现并不尽如⼈意。1.神经网络计算复杂。2.还没有⼤量深⼊研究参数初始化和⾮凸优化算法等诸多领域。机器学习的特征提取:手工定义的特征提取函数神经网络的特征提取:通过学习得到数据的多级表征,并逐级表⽰越来越抽象的概念或模式。神经网络发展的限制:数据、硬件AlexNet首次证明了学习到的特征可以超越⼿⼯设计的特征,从...

2020-02-18 17:32:52 174

转载 《动手学深度学习》组队学习打卡Task5——LeNet

course contentlenet 模型介绍lenet 网络搭建运用lenet进行图像识别-fashion-mnist数据集Convolutional Neural Networks使用全连接层的局限性:图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输入图像,使用全连接层容易导致模型过大。使用卷积层的优势:卷积层保留输...

2020-02-18 17:03:43 194

转载 《动手学深度学习》组队学习打卡Task5——卷积神经网络基础

卷积神经网络基础本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。二维卷积层本节介绍的是最常见的二维卷积层,常用于处理图像数据。二维互相关运算二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通...

2020-02-18 16:56:10 258

转载 《动手学深度学习》组队学习打卡Task4——Transformer

Transformer在之前的章节中,我们已经介绍了主流的神经网络架构如卷积神经网络(CNNs)和循环神经网络(RNNs)。让我们进行一些回顾:CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列。为了整合CNN和RNN的优势,[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transfo...

2020-02-18 16:46:21 158

转载 《动手学深度学习》组队学习打卡Task4——注意力机制与Seq2seq模型

sgh

2020-02-18 16:11:59 117

转载 《动手学深度学习》组队学习打卡Task4——机器翻译及技术

机器翻译和数据集机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。import osos.listdir('/home/kesci/input/')import syssys.path.append('/home/kesci/input/d2...

2020-02-18 15:14:05 179

原创 Anaconda基础设置以及常用命令

更新pippython -m pip install --upgrade pip安装主题pip install --upgrade jupyterthemesjt -t onedork -f fira -fs 13 -cellw 90% -ofs 11 -dfs 11 -T安装拓展插件用pip install jupyter_contrib_nbextensions和cond...

2020-02-14 16:52:57 339

转载 《动手学深度学习》组队学习打卡Task3——循环神经网络进阶

GRURNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系RNN:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yUhUanya-1581660758386)(https://cdn.kesci.com/upload/image/q5jjvcykud.png?imageView2/0/w/320/h/...

2020-02-14 14:33:04 169

转载 《动手学深度学习》组队学习打卡Task2——循环神经网络基础

循环神经网络本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量HHH,用HtH_{t}Ht​表示HHH在时间步ttt的值。HtH_{t}Ht​的计算基于XtX_{t}Xt​和Ht−1H_{t-1}Ht−1​,可以认为HtH_{t}Ht​记录了到当前字符为止的序列信息,利用HtH_{t}H...

2020-02-14 12:53:09 164

转载 《动手学深度学习》组队学习打卡Task2——文本预处理与语言模型

文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:读入文本分词建立字典,将每个词映射到一个唯一的索引(index)将文本从词的序列转换为索引的序列,方便输入模型读入文本用一部英文小说,H. G. Well的Time Machine,作为示例,展示文本预处理的具体过程。import collections...

2020-02-14 10:57:44 223

原创 win10+Anaconda+tensorflow2.0(GPU版)安装记录

TensorFlow 2.0 安装要求,具体可见官网打开Anaconda Prompt (Anaconda3)创建tensorflow环境conda create -n tensorflow pip python=3.7 激活tensorflow环境conda activate tensorflow安装cudatoolkit 10.0conda instal...

2020-02-13 21:30:43 721

原创 Win10+Anaconda+Pytorch1.4(GPU)安装记录

1. 安装Anaconda下载地址官网:https://www.anaconda.com/清华镜像:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/官网下载速度慢,镜像下载快。下载安装下载完成后按提示一步步安装,要注意到一点是,安装过程中把环境变量勾上。2. 安装PyTorch1.4打开Anaconda Pr...

2020-02-13 20:58:39 3953 4

转载 《动手学深度学习》组队学习打卡Task3——梯度消失、梯度爆炸以及Kaggle房价预测

梯度消失、梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为LLL的多层感知机的第lll层H(l)\boldsymbol{H}^{(l)}H(l)的权重参数为W(l)...

2020-02-13 18:10:36 471

转载 《动手学深度学习》组队学习打卡Task3——过拟合与欠拟合

参考《动手学深度学习》1. 过拟合、欠拟合训练误差与泛化误差训练误差(training error):指模型在训练数据集上表现出的误差.泛化误差(generalization error):指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交...

2020-02-13 17:57:42 274

转载 《动手学深度学习》组队学习打卡Task1——多层感知机

多层感知机参考:《动手学深度学习》多层感知机的基本知识使用多层感知机图像分类的从零开始的实现使用pytorch的简洁实现多层感知机多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络,且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。以单隐藏层为例并沿用本节之前定义的符号,多层感知机按以下方式计算输出:H=ϕ(XWh+bh),O=H...

2020-02-13 17:26:04 144

转载 《动手学深度学习》组队学习打卡Task1——softmax和分类模型

softmax和分类模型内容包含:softmax回归的基本概念 (见《动手学深度学习》)如何获取Fashion-MNIST数据集和读取数据softmax回归模型的从零开始实现,实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型使用pytorch重新实现softmax回归模型1.获取Fashion-MNIST训练集和读取数据多类图像分类数据集Fashion-M...

2020-02-13 16:59:37 210

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除