噜噜的小苹果-CSDN博客

原创 SAS 入门（二）实战篇

SAS入门（二）数据集导入本篇基于上一篇的理论学习，即SAS入门（一）进行实战，旨在记录练习中出现的bug及解决方法。数据集导入1、通过import导入.xls数据集时报错：ERROR: Database error. Examine fields and/or messages below.Unexpected OLE2 file manipulation error (-2147287038).问题溯源：找到一篇文章，提示xls文件导入报错是由于版本不适配2、通过data步自主创建

2020-08-07 18:07:18 1759 1

原创 SAS入门（一）理论篇

SAS入门（一）SAS系统结构组成SAS模块功能SAS系统文件管理SAS语言构成SAS程序构成DATA步PROC步SAS函数数据集SAS语句SAS系统结构组成SAS是由众多产品组成的模块化的大型集成系统，以下简要介绍常用的SAS模块功能。参考文献链接：SAS统计分析与应用从入门到精通SAS模块功能1、Base SAS绘制直方图、饼图、星形图、散点图、曲线图、时间序列图等。2、SAS/ STAT3、SAS/ ETS4、SAS/ GRAPH5、SAS/ OR6、SAS/ IML

2020-08-07 10:39:25 1509

原创 leetecode -- 数组问题（一）

26.删除数组中的重复项给定一个排序数组，你需要在原地删除重复出现的元素，使得每个元素只出现一次，返回移除后数组的新长度。不要使用额外的数组空间，你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。class Solution(object): def removeDuplicates(self, nums): """ :type num...

2019-05-27 16:19:20 322

原创 Datawhale 第7期《李宏毅机器学习》任务四

学习打卡内容：从基础概率推导贝叶斯公式，朴素贝叶斯公式(1)学习先验概率(2)学习后验概率(3)学习LR和linear regreeesion之间的区别(4)推导sigmoid function公式(5)Q1: 用回归模型是否可以做分类？最好不要。如果有一个二分类问题并且已经得到一个回归模型，这时候就有人会把分类当作回归硬解。例如把回归预测值更接近-1的部分划分为1类，更接近1...

2019-05-25 21:01:38 210

原创 Datawhale第7期-《李宏毅机器学习》作业（二）

文章目录理解偏差和方差误差为什么是由偏差和方差组成，推导相关公式误差、偏差与方差的实际意义过拟合、欠拟合分别对应bias和variance什么情况利用bias和variance分析模型拟合状态redesign 模型交叉验证N-fold 交叉验证梯度下降1.调整学习率AdagradAdagrad进一步解释2.随机梯度下降法Batch与Mini-Batch，SGD梯度下降的区别学习归一化学习回归模型评...

2019-05-17 20:58:31 715

原创 hive学习之路（一）

hive的数据类型整型数据范围：TINYINT(Y)<SMALLINT(S)<INT(-)<BIGINT(L)字符串VARCHAR（1-65355）和CHAR（255）使用单引号(’’)或双引号(“”)来指定；遵循C-类型的转义字符时间戳支持传统的UNIX时间戳可选纳秒的精度“YYYY-MM-DD HH:MM:SS.fffffffff”和格式“YYYY...

2019-05-17 16:12:51 701

原创 Datawhale第7期-《李宏毅机器学习》作业（一）

任务：1.了解什么是Machine learning2.学习中心极限定理，学习正态分布，学习最大似然估计3.推导回归Loss function4.学习损失函数与凸函数之间的关系5.了解全局最优和局部最优6.学习导数，泰勒展开7.推导梯度下降公式8.写出梯度下降的代码9.学习L2-Norm，L1-Norm，L0-Norm10.推导正则化公式11.说明为什么用L1-Norm代替L...

2019-05-13 21:23:30 534

原创机器学习/推荐系统/NLP/学习链接整合

最近发现一个宝藏级博客，将大佬的学习笔记做一个整合，之后慢慢学习~~~文章目录数据处理机器学习SVMEM算法隐马尔科夫LDA条件随机场集成/强化学习深度学习NLPtensorflowsparkpysparkhiveLinux命令行数据结构leetecode刷题剑指offer算法面试总结python推荐系统CTR预估计算机基础/www.jianshu.com/p/68b270557de7)数据处...

2019-05-01 14:21:21 514

原创吴恩达序列模型课程笔记（Week2）

上一周的课程主要讲解了一些经典的序列模型，例如RNN,GRU,LSTM等，这周的内容将包括NLP的一些概念讲解以及word embedding的内容，将NLP运用在序列模型中。词汇表述例如有一个词汇列表：V=[a,arron,…,zulu,]，假设当前词汇列表长度为10000，可用1-hot 表述词汇，若Man这个单词在词汇表中排第5391个，那么Man可用[0,0,0,…,1,…,0,0] ...

2019-04-28 19:20:50 385

原创 matplotlib学习 - scatter

scatterscatter(x, y, s=20, c=None, marker=‘o’, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, hold=None, data=None, **kwargs)x,y维度必须一致；x为点的颜色，...

2019-04-26 15:01:50 162

原创 torch.nn.functioanl及torch.nn（未完待续。。。）

文章目录torch.nn.functional包的内置函数Convolution 函数Pooling函数非线性激活函数Normalization函数线性函数Dropout函数距离函数损失函数vision functionstorch.nn包的内置函数loss functiontorch.nn.functional包的内置函数Convolution 函数Pooling函数非线性激活函数Py...

2019-04-26 15:00:53 355

原创招商Fintech学习笔记 - 深度学习 - tensorflow 实现卷积层

TensorFlow 卷积层TensorFlow 提供了 tf.nn.conv2d() 和 tf.nn.bias_add() 函数来创建你自己的卷积层。# Output depthk_output = 64# Image Propertiesimage_width = 10image_height = 10color_channels = 3# Convolution filt...

2019-04-26 15:00:06 190

原创 Numpy 学习 -- argwhere函数,random函数

argwherenp.argwhere(expression)返回满足表达式的元素下标

2019-04-26 14:59:09 1911

转载 pandas常用函数清单

以下内容转载自https://www.jianshu.com/p/6eb5499cd07d文件读取df = pd.read_csv(path='file.csv')参数：header=None 用默认列名，0，1，2，3... names=['A', 'B', 'C'...] 自定义列名 index_col='A'|['A', 'B'...] 给索引列指定名称，如果是...

2019-04-23 21:17:55 315

原创吴恩达序列模型课程笔记（Week1）

下面开始学习吴恩达深度学习之序列模型系列课程。学习资源examples of sequence data序列模型常用于处理监督学习问题，输入x和输出y均为序列，但对应长度可以相等也可以不相等。定义标识以Named-entity recognition（常用于搜索引擎中）为例，即从一个序列中识别出人名。如上图所示，输入一串文本序列，输出要求是对应每个单词给出一个标记，表明该单词是否位...

2019-04-23 16:51:24 971

原创吴恩达卷积神经网络笔记（Week2）

上周课程讲述了CNN的在多维上的实现过程，以及重要的卷积层（convolution、pooling、stride等，笔记链接）。这周课程将通过一些经典的网络层来学习如何设置这些超参数。outlineClassic networks:ResNetInceptionpractical advice for using convnets迁移学习数据增强（data augmentation）common...

2019-04-22 10:50:58 664

原创吴恩达卷积神经网络笔记（Week1）

卷积神经网络笔记（Week1）1.卷积层1.1卷积核的计算方式左侧是一个66矩阵，每次选择一个33的矩阵（假设是x11x12x13x21x22x23x31x32x33\begin{matrix} x_{11}&x_{12}&x_{13}\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&a...

2019-04-20 21:34:38 477

原创 pytorch函数 - ge,cat,randn

文章目录torch.mmtorch.logtorch.randntorch.mmtorch.logtorch.randn

2019-04-17 21:58:09 1612

原创 pandas学习 - get-dummies,drop,join函数

get-dummies将分类变量转换为哑变量/指示变量pd.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False)data为df或series，在未指定对data的某个列做one-hot时，get_dummies会自动识别dat...

2019-04-17 21:49:54 1269

原创 Jupyter Notebook使用

Magic 关键字Magic 关键字是可以在单元格中运行的特殊命令，能让你控制 notebook 本身或执行系统调用（例如更改目录）。例如，在 notebook 中可以使用 %matplotlib 将 matplotlib 设置为以交互方式工作。Magic 命令的前面带有一个或两个百分号（% 或 %%），分别对应行 Magic 命令和单元格 Magic 命令。行 Magic 命令仅应用于编写 ...

2019-04-17 11:26:21 254

原创 python学习--lambda函数、format函数

文章目录lambda 函数lambda 函数lambda表达式，通常是在需要一个函数，但是又不想费神去命名一个函数的场合下使用，也就是指匿名函数。基本使用方式：add = lambda x, y : x+yadd(1,2) # 结果为3通常遇到使用匿名函数的情况：排序list1 = [3,5,-4,-1,0,-2,-6]sorted(list1, key=lambda ...

2019-04-17 09:16:18 1377

原创 pytorch 入门 - L1,L2正则，Dropout

文章目录Dropoutdropout 简介dropout具体工作流程dropout 数学表达dropout如何解决过拟合dropout 使用场景Dropout的numpy实现PyTorch中实现dropout参考资料Dropoutdropout 主要用于解决训练过程中模型出现过拟合的问题。在模型训练过程中，当训练集上的正确率很高，但验证集上的正确率很低时，即发生了过拟合。解决过拟合的方法有很多...

2019-04-17 09:14:29 274

原创招商Fintech学习笔记 -深度学习 - 深度学习简介

线性模型构建XOR多层感知器其中A为 and 操作，B为 or操作， C 为 not操作。感知器如何学习‘分类’蓝色点为分类错误的点，蓝黄两部分是由直线l:3x1+4x2−10=0l:3x_1+4x_2-10=0l:3x1+4x2−10=0 划分的，其中t黄色部分为l:3x1+4x2−10<0l:3x_1+4x_2-10<0l:3x1+4x2−10&l...

2019-04-16 23:22:31 1131

原创 pytorch 入门 - 优化算法详解

文章目录梯度下降法（Gradient Descent）GD算法的实现方式BGD（Batch Gradient Descent）SGD（Stochastic Gradient Descent）MBGD （Mini-Batch Gradient Descent）梯度下降算法的不足GD算法的改进MomentumNesterov Accelerated Gradient自适应优化算法AdagradAdad...

2019-04-16 22:40:35 2334

原创 Numpy学习 - array合并及分割

文章目录array合并array分割array合并np.concatenate及np.vstack & np.hstack 实现堆叠arr1 = np.array([1,2,3])arr2 = np.array([4,5,6])arr3 = np.vstack((arr1,arr2))#垂直合并arr4 = np.hstack((arr1,arr2))#水平合并arr5 ...

2019-04-15 10:35:13 453

原创 sklearn入门 - externals模块保存模型

模型训练完毕后，会因各种需求要将模型做一个保存，例如：在训练集中进行交叉验证或者多模型比较需要将模型保存下来后做一个对比，那么这时就需要用到externals模块保存训练模型。保存模型：from sklearn.externals import joblib## 通过joblib的dump可以将模型保存到本地joblib.dump(model_name, "savepath.m")lo...

2019-04-14 10:11:46 2703 1

原创 pytorch入门（四）搭建多层的神经网络

文章目录读取数据数据集描述读取数据数据预处理构建计算图选择网络层选择激活函数选择损失函数与优化器常见损失函数训练模型模型评估参考资料MNIST是一个非常有名的手写体数字识别数据集，在很多资料中，这个数据集都会被用作深度学习的入门样例，接下来将围绕 MNIST数据集训练多层的神经网络模型。读取数据数据集描述MNIST数据集由250 个不同人手写的数字构成，其训练数据集包含 60,000 个...

2019-04-13 00:30:28 5771 2

原创 Numpy - 矩阵乘法

Numpy 元素级乘法可用multiply 函数或 * 运算符实现m = np.array([[1,2,3],[4,5,6]])m# 显示以下结果：# array([[1, 2, 3],# [4, 5, 6]])n = m * 0.25n# 显示以下结果：# array([[ 0.25, 0.5 , 0.75],# [ 1. , 1....

2019-04-12 13:28:07 642

原创达观杯数据竞赛 -- LR+SVM处理词向量特征

文章目录LR模型详解LR简介关于sigmoid 函数sigmoid函数LR为什么用sigmoid函数？关于损失函数处理非线性问题特征离散化LR处理TF-IDFLogisticRegression 参数详解LR实战SVM模型详解SVM简介SVM标准问题的推导线性可分数据近似线性可分数据非线性可分数据SVM处理TF-IDFSVM的几个重要概念sklearn.svm 函数SVM实战参考资料LR模型详解...

2019-04-11 21:41:50 1039 1

原创 pytorch入门（三）实现logistics回归

文章目录PyTorch实现Logistic regressionPyTorch基础实现代码用PyTorch类实现Logisticregression,torch.nn.module写网络结构PyTorch实现Logistic regressionPyTorch基础实现代码用PyTorch类实现Logisticregression,torch.nn.module写网络结构...

2019-04-10 16:45:08 3190 1

原创达观杯数据竞赛项目--初识word2vec

初识词向量表示：word2vecCS224n 斯坦福NLP视频课程内容==》link课程计划词义（word meaning）词义通常是通单词、短语等表示的想法；在语言学中，单词像是一种语言学符号，用于指代某些具体的物品。在计算机中常用分类资源来处理词义，例如用WordNet来处理英语词语的分类，包括查询上义词和同义词等。wordnet作为一个资源词典固然很好，但仍存在一些问题，例如：...

2019-04-09 16:39:26 534

原创 pytorch学习（二）搭建简易神经网络

文章目录定义网络模型参数损失函数反向传播更新权重backward 和 optimizer 之间的交互：参考资料一个神经网络的典型训练过程如下：定义包含一些可学习参数（或称为权重）的神经网络在输入数据上迭代通过网络处理输入，得到预测值计算损失（预测值和正确答案的距离）将梯度反向传播给网络参数更新权重定义网络import torchimport torch.nn as nn...

2019-04-09 10:46:36 811

原创 Pytorch学习（二）设立计算图

文章目录numpy和pytorch实现梯度下降法设定初始值求取梯度在梯度方向上进行参数的更新numpy和pytorch实现线性回归pytorch实现一个简单的神经网络numpy和pytorch实现梯度下降法设定初始值求取梯度在梯度方向上进行参数的更新numpy和pytorch实现线性回归pytorch实现一个简单的神经网络...

2019-04-08 18:45:30 1714

原创 python学习--pickle存储

在python中存储数据时，调用open函数写入操作再重新读取时可能会出现类型不匹配的情况，因为读取的都是字符串形式，要做类型转换。若想存储python的原生对象，但又无法信任数据来源，则可以考虑pickle模块。pickle用来保存和加载python数据对象的（是python的专有格式文件，其他语言无法识别），数据用dump保存到文件，用load加载。demoimport pickle...

2019-04-07 18:22:39 249

原创达观杯数据竞赛项目--提取TF-IDF特征（Date2）

文章目录初识TF-IDF概念原理优缺点TF-IDF实现TF-IDF的python实现sklearn提取TF-IDF特征pickle 存储数据参考资料任务要求：学习TF-IDF理论并实践，使用TF-IDF表示文本初识TF-IDF概念TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Te...

2019-04-07 18:13:09 1064

原创 pytorch学习（一）基础入门

文章目录why pytorch？pytorch的安装（windows系统）配置安装环境why pytorch？pytorch是一个最近比较火的深度学习框架，但目前仅支持linux和osx系统，所以windows系统需要通过虚拟机去安装。pytorch是一个提供两个强大功能的python包：具有强GPU加速度的张量计算，如numpy深层神经网络pytorch的安装（windows系统...

2019-04-07 09:07:10 465

原创达观杯文本竞赛项目--文本智能处理(date1)

达观杯文本竞赛竞赛描述任务规划Date1:读取数据、做数据预处理、划分训练数据读取数据竞赛描述competition link:link任务简述：建立模型通过长文本数据正文，预测文本类型任务规划Date1:读取数据、做数据预处理、划分训练数据读取数据...

2019-04-05 21:23:44 231

qq_39446239的博客