Rachel_nana-CSDN博客

原创 Spark MLlib---逻辑回归与决策树

1、Spark MLlib的简介机器学习可以看做是一门人工智能的科学，该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验，以此优化计算机程序的性能标准。机器学习强调三个关键词：算法、经验、性能用算法对数据进行训练以后得到的才叫模型。传统的机器学习算法，由于技术和单机存储的限制，只能在少数数据上使用，依赖于数据的抽样。由于大数据技术的出现，现在有了海量的存储空间，以及非...

2020-05-09 15:18:00 678

原创键值对 PairRDD的相关操作

键值对RDD是一类非常典型的RDD操作，在spark的运行中很多都是用键值对RDD进行操作的。1、键值对RDD的创建键值对RDD中每个元素都是key，value的模式1、从文件中加载2、通过并行集合创建2、常见的键值对RDD转换操作...

2020-04-27 15:00:07 399

原创 RDD的处理方法（创建、转换、行动、分区）

spark生态系统：底层是spark core，在spark core的基础上开发了其他组件，可以支持不同的应用场景。spark sql支持sql 查询，spark streaming可以支持流计算，spark mLlib支持机器学习等。rdd编程是指spark core（底层）的编程。为什么叫rdd编程？因为整个过程就是对rdd的一次又一次的转换。rdd编程基础rdd创建现...

2020-04-26 11:33:24 2182

原创 pyspark运行模式

spark有两种不同的交互式运行环境：一种是给python语言提供的（pyspark），一种是给scala语言提供的。如何进入pyspark？假设现在已经进入linux环境了，然后执行以下命令进入pyspark中：master-url的值可取以下值：local[*] 逻辑CPU的个数 = 整个物理CPU的个数 * 每个CPU的核数最后一个连接集群 HOST：主机名 ...

2020-04-23 09:50:47 2321

原创 RDD运行原理

RDD产生的原因在之前的机器学习里以及交互式挖掘等经常会涉及很多迭代式计算，这些迭代计算会涉及到一个中间结果计算的重用问题，MapReduce是把中间结果写入到磁盘里面，下次要使用的时候再从磁盘里读取中间结果，这样就会带来大量化的磁盘读写开销以及序列化与反序列化的开销。这里说的序列化是指将内存中的java对象进行转换为存储或传输的格式，比如说可以将java对象序列化为二进制对象...

2020-04-23 09:36:04 1976

原创 pytorch学习十一 ---- 学习率调整策略以及tensorboad

在优化器中有很多超参数，如学习率、momentum等。其中学习率直接控制参数更新的一个大小，在整个训练当中，学习率也不是一成不变的。为什么要调整学习率？学习率是直接控制更新的步伐，从梯度下降的公式可以看出，参数更新中是学习率乘以一个梯度（更新量），在这里学习率直接控制了参数更新的大小。一般我们在刚开始训练时，学习率会设定比较大，让更新步伐较大，到了后期，学习率LR会下降，让参数更新的步伐变...

2019-11-13 10:55:59 1065

原创大数据代表技术：Hadoop、Spark、Flink、Beam

大数据代表技术：Hadoop、Spark、Flink、BeamHadoop：从2005年到2015年，说到大数据都是讲hadoop。Hadoop是一整套的技术框架，不是一个单一软件，它是一个生态系统。Hadoop有两大核心：第一个是它解决了分布式存储的框架叫HDFS，这是一个分布式存储系统。第二个是解决了分布式计算框架叫MapReduce。这是它的两大关键技术，除此以外，还有其他相关技...

2019-11-13 10:37:53 5403

原创 pytorch学习十 ---- 优化器

1、什么是优化器？首先我们回忆一下机器学习的五大模块：数据、模型、损失函数、优化器、迭代训练在损失函数中我们会得到一个loss值，即真实标签与预测标签的差异值，对于loss我们通常会采用pytorch中的autograd自动求导机制进行求导，优化器拿到每个参数的导数会根据优化策略去更新我们的模型的参数，并使得模型的loss值呈下降趋势。因此优化器的主要作用是采用梯度去更新我们模型中的可...

2019-11-11 12:30:31 2878

原创 pytorch学习九---损失函数

损失函数（一)损失函数概念损失函数是衡量模型输出与真实标签的差异在我们讨论损失函数时，经常会出现以下概念：损失函数（Loss Function）、代价函数（Cost Function）、目标函数（Objective Function)。这三者有什么区别及联系呢？Loss Function是计算一个样本的差异，代价函数是计算整个样本集的差异的平均值：目标函数是更广泛的概念...

2019-11-07 11:51:23 1725

原创 pytorch学习八--权值初始化

正确的权值初始化可以加快模型的收敛，不恰当的初始化会引发梯度消失和爆炸梯度消失与爆炸不恰当初始化如何引起梯度消失和爆炸的：下面是三层的全连接网络，我们来看第二个隐藏权值梯度是如何求取的X 如果，则，从而导致了梯度消失；如果，则，从而导致了梯度爆炸。一旦引发...

2019-11-05 11:52:28 1763

原创 pytorch学习七 -- 网络层-池化-线性-激活函数

卷积运算：卷积核在输入信号（图像）上滑动，相应位置上进行乘加。卷积核：又称为滤波器，过滤器，可认为是某种模式，某种特征卷积过程类似于用一个模板去图像上寻找与它相似的区域，与卷积核模式越相似，激活值越高，从而实现特征提取。AlexNet卷积核可视化，发现卷积核学习到是边缘、条纹、色彩这一些细节模式，这也印证了卷积核是某种特征提取器，而具体是哪一种特征、哪一种学习器完全是由模型决定的。...

2019-11-02 12:36:23 1119

原创 pytorch学习六--模型创建步骤与nn.module

模型模块包括两部分：模型创建与权值初始化；模型创建又包括构建网络层（卷积层、池化层、激活函数层等）和拼接网络层（LeNet、AlexNet、ResNet等）；权值初始化有Xavier、Kaiming、均匀分布、正态分布等。LeNet网络结构运算示意图nn.moduletorch.nn.Parameter：张量子类，表示可学习参数，如weight、bias torch...

2019-11-02 12:36:11 559

原创 pytorch学习五 --数据增强transforms

数据增强数据增强又称为数据增广，数据扩增，它是对训练集进行变换，使训练集更丰富，从而让模型更具泛化能力。数据增强 ---> 如我们高考之前做的五年高考，三年模拟一、 transforms. -- crop1. transforms.CenterCrop（size）功能：从图像中心裁剪图片 size：所需裁剪图...

2019-11-02 12:35:40 9481

学习pytorch数据读取机制中两个重要模块dataloader与Dataset：通过一个人民币分类实验来学习pytorch是如何从硬盘中读取数据的，并深入学习数据读取中涉及的两个模块DataSet与Dataloader；熟悉数据预处理处理transforms方法的运行机制：数据在读取到pytorch之后通常都需要对数据进行预处理，包括尺寸缩放、转换张量、数据中心化或标准化等等，这些操作都是通...

2019-11-02 12:34:59 763

原创 pytorch学习3 -- 自动求导系统autograd

对pytorch的自动求导系统中常用两个方法：torch.autograd.back和torch.autograd.grad进行介绍torch.autograd.backward(tensors,grad_tensors=None,retain_graph=None,create_graph=False)tensors：用于求导的张量，如loss retain_graph：保存计算图 ...

2019-11-02 12:34:08 562

原创 pytorch学习2 - 张量操作与线性回归

张量的操作：拼接、切分、索引和变换1张量的拼接与切分1.1 torch.cat(tensors,dim=0,out=None) 功能：将张量按维度dim进行拼接 tensors：张量序列 dim：要拼接的维度1.2 torch.stack(tensors,dim=0,out=None)功能：在新创建的维度dim上进行拼接 tensors：张量序列 dim：要拼接的维度...

2019-11-02 12:33:55 374

原创集成与堆叠

一、集成学习介绍基础集成技术：最大投票法（max voting)、平均法（averaging)、加权平均法（weighted average）高级集成技术：堆叠（stacking）、混合（Blending）1.例子买车：1.问别人哪种车好2.上网查询其价格3.4S店去问4.综合各种信息买到自己想要的车最大投票方法通常用于分类问题。这种技术中使用多个模型来预...

2019-09-12 18:00:24 2036

翻译卷积神经网络的变体

VggNet2014年，牛津大学计算机视觉组和Google DeepMind公司的研究员一起研发的新的深度卷积神经网络：VggNet，并取得了ILSVRC2014比赛分类项目的第二名（第一名是GoogLeNet,也是同年提出的）和定位项目的第一名。VggNet探索了卷积神经网络的深度与其性能之间的关系，成功地构筑了16-19层深的卷积神经网络，证明了增加网络的深度能够再一定程度上影响完了过...

2019-09-12 17:56:21 3383

转载 linux中rpm和yum的特点与区别

1 Linux软件安装概述安装程序的方式：通用二进制格式：直接解压压缩文件，就可以使用。但一定要注意安装平台。软件包管理器：如RPM。软件包管理器的前端工具：如YUM。源代码编译。1.1 软件包概述软件包的组成部分：二进制程序，位于/bin, /sbin, /usr/bin, /usr/sbin, /usr/local/bin, /usr/local/sb...

2019-09-10 12:00:45 1305

转载 Linux安装python的.tar.gz包

centos安装py .tar.gz包最近在服务器安装py包时发现很多pip easy_install都不好用，于是记录下原生态的安装方法。以pyhs2为例其余的大同小异啦ヽ(*≧ω≦)ﾉ一、尝试pip安装pip install pyhs21安装完成后测试pyhtonimport pyhs212不报错的话，恭喜，你不需要再继续看下去了。ヽ(*・ω・)ﾉ二、....

2019-09-09 16:06:41 7793

翻译生成对抗网络

生成对抗网络说明:本文中代码与dc_gan.py的运行结果一致，可直接运行(https://github.com/PaddlePaddle/book/blob/develop/09.gan/dc_gan.py)进行验证。背景介绍生成对抗网络（Generative Adversarial Network[1]，简称GAN）是非监督式学习的一种方法，通过让两个神经网络相互博弈的方式进...

2019-09-06 12:58:57 3306

翻译 RNN与情感分析

情感分析本教程源代码目录在https://github.com/PaddlePaddle/book/tree/develop/06.understand_sentiment,初次使用请您参考Book文档使用说明：https://github.com/PaddlePaddle/book/blob/develop/README.cn.md。背景介绍在自然语言处理中，情感分析一般是指判断...

2019-08-29 17:52:57 6207

翻译词向量

背景介绍本章我们介绍词的向量表征，也称为word embedding。词向量是自然语言处理中常见的一个操作，是搜索引擎、广告系统、推荐系统等互联网服务背后常见的基础技术。在这些互联网服务里，我们经常要比较两个词或者两段文本之间的相关性。为了做这样的比较，我们往往先要把词表示成计算机适合处理的方式。最自然的方式恐怕莫过于向量空间模型(vector space model)。在这种方式里，...

2019-08-29 17:51:41 1309

原创 Pyspark：读取本地文件和HDFS文件

1.读取本地文件首先需要在目录“/usr/local/spark/mycode/wordcount”下，建好一个word.txt：hadoop@rachel-virtual-machine:/usr/local/spark$ ./bin/pyspark./bin/pyspark: 行 45: python: 未找到命令Python 3.6.8 (default, Jan 14 201...

2019-08-29 15:26:50 27614 3

原创 Spark SQL与 DataFrame

Spark SQL是Spark生态系统中非常重要的组件，其前身为Shark。Shark是Spark上的数据仓库，最初设计成与Hive兼容，但是该项目于2014年开始停止开发，转向Spark SQL。Spark SQL全面继承了Shark，并进行了优化。Shark即Hive on Spark，为了实现与Hive兼容，Shark在HiveQL方面重用了Hive中的HiveQL解析、逻辑执行计划翻译...

2019-08-29 15:13:36 2056

原创 ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, maste

运行SparkContext报错：ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) created by <module> at /usr/local/spark/python/pyspark/shell.py...

2019-08-28 16:13:00 5152

原创安装虚拟机VMware和ubuntu18.04，打开ubuntu出现黑屏

因为工作需要接触spark，因此准备在windows上安装一个虚拟机，并在虚拟机上安装ubuntu18.4安装VMware很简单，按步骤执行即可。VMware可通过以下链接进行下载：链接：https://pan.baidu.com/s/1hw0sfxy6DdUkkaMayaqKpA提取码：fdnc激活的key链接：链接：https://pan.baidu.com/s/1V...

2019-08-27 17:18:40 6356 3

转载管道(Pipeline)和特征融合(FeatureUnion)

Pipeline：chaining（链接）estimatorsPipeline可以用于把多个estimators级联合成一个estimator。这么做的原因是考虑了数据处理过程的一系列前后相继的固定流程，比如：feature selection --> normalization --> classification。在这里，Pipeline提供了两种服务：Convenie...

2019-08-16 14:20:12 1470

转载 python 导入包时报错 ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.8' not found 的解决办法

strings /usr/lib64/libstdc++.so.6|grep CXXABI 查看是否有“CXXABI_1.3.8”，没有说明需要安装进入python的安装路径下的lib文件夹（我这里python安装在/home/public/anaconda）查看libstdc++.so.6的最高版本将libstdc++.so.6的最高版本复制到/usr/lib64/目录下（...

2019-08-16 11:51:34 2177

原创 ERROR:Cannot uninstall 'llvmlite', It is a distutils... 和 KeyError: 'figure.constrained_layout.use'

安装pandas_profiling出现如下错误：pip install pandas_profiling然后我分别升级这几个包：(base) C:\Users\Rachel>pip install pandas==0.23.4Collecting pandas==0.23.4 Downloading https://files.pythonhosted.org/p...

2019-08-11 09:40:42 3970

原创修改Jupter notebook的路径

首先需要安装好anaconda3，安装好后选择jupyter notebook后点击右键，选择 “更多”，然后选择 “打开文件位置”。接着右击Jupyter notebook选择，选择 “属性”选择属性后弹出对话框如下：在该对话框操作如下：1.目标中删除%%内的内容及%2.起始位置中修改为存放路径3.点击高级选项，勾选 “用管理员身份运行” 选项，点击...

2019-08-08 13:30:38 2090

原创模型评估与选择

1.经验误差与过拟合错误率（error rate）：分类错误的样本占样本总数的比例如果在个样本中有个样本分类错误，则错误率为，相应地，称为“精度”（accuracy），即“精度= 1-错误率”。误差（error）：我们把学习器的实际预测输出与样本的真实输出之间的差异训练误差（training error）或经验误差（empirical error）：学习器在训练集上的误差泛化误...

2019-08-04 22:26:05 665

原创 centos中安装Python决策树的画图工具graphviz

1.首先安装graphvizyum -y install graphviz2.安装python插件graphvizpip installgraphviz3.安装Python插件pydotpluspip installpydotplus看到一个资料博客，保存一下：https://blog.csdn.net/luanpeng825485697/article/d...

2019-07-30 16:42:36 592

原创神经网络

这周主要学习了感知机、BP神经网络以及简单地对卷积神经网络的初探。1.感知机感知机(perceptron）是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对对损失函数进行纪晓...

2019-07-28 20:24:46 721

原创贝叶斯分类器

1.贝叶斯决策论贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对于分类任务，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。贝叶斯判定准则(Bayes decision rule)：为最小化总体风险，只需在每个样本上选择那个能使条件风险最小的类别标记，即此时，称为贝叶斯最...

2019-07-21 12:04:06 1433

原创 EM算法

EM算法是一种迭代算法，由Dempster等人于1977年总结提出，主要用于解决含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代主要由两步组成：E步，求期望；M步，求极大。所以这一算法称为期望极大算法，简称EM算法。1.EM算法的引入概率模型有时既含有观测变量，又含有隐变量或潜在变量。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，...

2019-07-21 12:03:58 1317

原创 centos中Python的selenium包和firefox的匹配问题

将下载解压的geckodriver放在/usr/local/bin目录下即可仍报错，版本不匹配仍是版本不匹配的问题1.在centos中参看firefox的版本：为45.0.9firefox -v #centos查看火狐版本2.根据百度，我们安装firefox版本为57.0.4，安装路径如下：需要的版本有firefox 57.0.4cd /usr/local...

2019-07-18 11:55:45 371

原创 centos中Python里的matplotlib画图中文显示方框问题

1.查看系统是否有可用的中文字体from matplotlib.font_manager import FontManagerimport subprocess fm = FontManager()mat_fonts = set(f.name for f in fm.ttflist)print (mat_fonts)output = subprocess.check_output...

2019-07-18 11:49:26 2032

原创安装Centos镜像遇到的问题，Unable to contact settings server

根据https://blog.csdn.net/abcdrachel/article/details/95593584博客安装好所需环境后，首先我stop了该镜像，然后start该镜像，接着通过ip+端口号访问该容器，遇到如下情况：Unable to contact settings serverFailed to connect to socket /tmp/dbus-lam2d65eV...

2019-07-16 09:30:08 7558

原创支持向量机SVM原理及推导

本周内容总结1.间隔与支持向量分类学习的基本思想：基于训练集在样本空间找到一个划分超平面，将不同类别的样本划分开。特点：寻找位于两类训练样本“正中间”的划分超平面原因：该超平面对训练样本局部扰动的“容忍”性最好，所产生的分类结果最鲁棒，对未见示例的泛化能力最强。在样本空间，划分超平面可通过方程来描述，其中为法向量，决定了超平面的方向。b为位移项，决定了超平面与原点的距离。样...

2019-07-14 10:10:42 5358 2

空空如也

空空如也