ws_developer-CSDN博客

原创云计算、大数据、人工智能之间的关系，总章

云的存在是为了更灵活高效的利用计算、网络、存储等计算机资源。因此云计算主要包括两部分：1，资源虚拟化。用以灵活分配计算机资源。如，将计算机上的一部分资源虚拟为一台电脑，也可理解为虚拟机。2，云化。也叫池化，将所有虚拟机看做一个资源池，使用调度算法合理为任务分配虚拟机。云平台做的最好的是闭源：AWS（亚马逊云平台），开源：OpenStack。云平台按照服务可分为以下三类：1...

2019-06-11 19:35:21 6135 4

转载 centos7安装python3.6.8

https://blog.csdn.net/nickljw/article/details/85886422

2019-08-27 13:28:30 306

原创 VMvare Redhat 网络配置 yum源配置

云平台、大数据平台基本都部署在linux服务器上，本篇博客描述的是如何在虚拟机环境下搭建平台。包括以下几部分：一，虚拟机网络配置（保证虚拟机内的系统可以联网，可以与主机互相访问）。虚拟机：vmvare.linux系统：Redhat7.01，设置主机IPvmvare安装后会在主机的网络配置中出现两个虚拟网卡。查看VMnet8的ipv4设置无线网络可共享2...

2019-06-17 13:08:43 458

Deep learning本身算是machine learning的一个分支，简单可以理解为neural network的发展。　Deep learning与传统的神经网络之间有相同的地方也有很多不同。　二者的相同在于deep learning采用了神经网络相似的分层结构，系统由包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层...

2018-09-05 14:55:30 903

转载什么是one hot编码？为什么要使用one hot编码？

【编者按】数据科学家Rakshith Vasudev简要解释了one hot编码这一机器学习中极为常见的技术。图片来源：imgur你可能在有关机器学习的很多文档、文章、论文中接触到“one hot编码”这一术语。本文将科普这一概念，介绍one hot编码到底是什么。一句话概括：one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。通过例子可能更容易理解...

2018-09-05 14:27:56 8347

转载 PCA 原理及PYTHON实现

前言说好的要做个有逼格的技术博客，虽然这篇依然没什么水平，但总算走出了第一步，希望以后每天都能进步一点点吧！接触机器学习也一年多了，也学了很多算法，而PCA是数据预处理中一个很重要的算法，当时学习的时候也在网上看了很多资料，没想到一个简单的PCA也有着严密的数学推导，终于知道当年研究生考试为什么数学要考这么难了。这篇文章主要是对PCA算法的一个总结，数学原理部分主要来自PCA的数学原理...

2018-08-13 17:45:08 28231 5

转载 win10下安装tensorFlow

文章转载自http://www.jiaxiaojunjxj.cn/2017/11/01/TensorFlow%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B001/TensorFlow，以下简称TF，是Google2015年发布的机器学习平台，发布以后由于其速度快，扩展性好，推广速度还是蛮快的。江湖上流传着Google的大战略，Android占领了移动端，TF占领神经网...

2018-07-07 18:06:52 275

转载 win10下 Anaconda闪退问题解决方法

实验环境：系统：Win 10 企业版Anaconda 版本：Python 3.5.2 | Anaconda 4.2.0(64-bit)问题描述：安装Anaconda及使用过程中没有出现任何问题，但当打开 Anaconda Navigator时闪退，就是会出现一个打开图标，但无法启动成功就退出了。解决方法：1.使用管理员权限运行 Anaconda Prompt2.升级nav...

2018-07-07 17:51:23 5849

转载 Fatal error in launcher: Unable to create process using '"'

今天想用pip安装MySQL_python,老是提示：Fatal error in launcher: Unable to create process using '"'，script目录也添加到了系统变量path中，就是报错。后来不直接pip换了命令:python -m pip install aiohttp,运行成功。遇到同问题的朋友也可以尝试下...

2018-06-17 21:43:09 247

原创 spark 基本方法

转换（Transformations）TransformationMeaningmap( func)返回一个新的分布式数据集，由每个原元素经过func函数转换后组成filter( func)返回一个新的数据集，由经过func函数后返回值为true的原元素组成flatM

2016-06-01 16:01:55 2263

原创 spark 客户端和集群模式的区别

spark 客户端 driverprogram在提交应用的机器上，运行结果会直接输出到shell中spark运行在集群上 driverprogram在集群中的一台机器上结果在UI上看 shell中不会输出太多信息

2016-05-30 18:11:18 2168

原创 spark on yarn 配置

yarn-site.xml yarn.resourcemanager.hostname hadoop-yarn.cloudyhadoop.com yarn.nodemanager.aux-services mapreduce_shuffle

2016-05-30 18:04:40 356

原创 spark UI 显示已完成应用的历史信息

1，在HDFS 上创建放历史文件的目录2，配置spark-env.sh的SPARK_HISTORY_OPTS=“-Dspark.eventLog.dir=第一步创建的目录”3，配置spark-defaults.conf 的spark.eventLog.enabled=true，spark.eventLog.dir=第一步创建的目录，spark.eventLog.compress=true

2016-05-30 17:37:07 851

转载 Hadoop多节点集群安装配置

一步步教你Hadoop多节点集群安装配置1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构

2016-05-30 16:17:05 539

转载 Windows下IntelliJ IDEA中调试Spark Standalone

Windows下IntelliJ IDEA中调试Spark Standalone2015-02-01 18:01 9655人阅读评论(5)收藏举报本文章已收录于：分类：大数据（131）作者同类文章X目录(?)[+]一主要思想二前提要求三新建测试项目三调试Spark Standa

2016-05-22 11:27:59 708

原创使用IDEA编写基于Scala的spark程序中的常见问题

1，ClassNotFound 通过Project Structure 将 main 改为 sources2，提示已经是一个Object 通过Project Structure 将 src 和 main 改为 sources3，提示 NoSourcesFind spark Scala 版本不同步看官网版本依赖

2016-05-20 10:01:14 572

转载 HDFS 常用命令

hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 Hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本地

2016-05-15 17:13:19 3984

转载 Spark集群无法停止的原因分析和解决

Spark集群无法停止的原因分析和解决[日期：2015-08-02]来源：Linux社区作者：simplestupid[字体：大中小]今天想停止spark集群，发现执行stop-all.sh的时候spark的相关进程都无法停止。提示：no org.apache.spark.deploy.master.Master

2016-05-15 15:31:33 1483

转载 hdfs 常用命令

hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本

2016-03-25 16:42:55 303

转载聚类指标Rand Index

假设一个集合中有N篇文章一个集合中有N(N-1)/2个集合对TP：同一类的文章被分到同一个簇TN：不同类的文章被分到不同簇FP：不同类的文章被分到同一个簇FN：同一类的文章被分到不同簇Rand Index度量的正确的百分比RI = （TP+TN）/（TP+FP+FN+TN）因此，FP=40-20=20.同理，

2016-02-26 16:57:29 2905

原创 Windows和Linux通信

1-------------------------------------------------------Windows和VMware--Linux通信 IP配置 1，修改Windows vmnet1手动IP 2，修改Linux IP vmnet1和Linux网段相同 1，命令 vim /etc/sysconfig/network-script/ifcfg-eth0

2015-10-24 22:28:22 412

spark 论文中文版

2016-06-28

MapReduce: Simplified Data Processing on Large Clusters 中文版

MapReduceMapReduce超大集群的简单数据处理收件人发件人崮山路上走9遍抄送日期-08-05关于MapReduceSimplifiedDataProcessingonLargeCluste

2016-06-28

The Google File System 中文版

TheTheTheTheGoogleGoogleGoogleGoogleFileFileFileFileSystemSystemSystemSystem中文版译者alexalexalexalex摘要我

2016-06-28

linux命令文档

包含Linux操作系统的全部命令，有助于使用Linux。

2015-10-23

java 参考文档

文档包含java中的所有类，方法。有助于java的快速开发。

2015-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ws_developer的博客

原创云计算、大数据、人工智能之间的关系，总章

转载 centos7安装python3.6.8

原创 VMvare Redhat 网络配置 yum源配置

转载 Deep learning 与传统的神经网络的区别

转载什么是one hot编码？为什么要使用one hot编码？

转载 PCA 原理及PYTHON实现

转载 win10下安装tensorFlow

转载 win10下 Anaconda闪退问题解决方法

转载 Fatal error in launcher: Unable to create process using '"'

原创 spark 基本方法

原创 spark 客户端和集群模式的区别

原创 spark on yarn 配置

原创 spark UI 显示已完成应用的历史信息

转载 Hadoop多节点集群安装配置

转载 Windows下IntelliJ IDEA中调试Spark Standalone

原创使用IDEA编写基于Scala的spark程序中的常见问题

转载 HDFS 常用命令

转载 Spark集群无法停止的原因分析和解决

转载 hdfs 常用命令

转载聚类指标Rand Index

原创 Windows和Linux通信

spark 论文中文版

MapReduce: Simplified Data Processing on Large Clusters 中文版

The Google File System 中文版

linux命令文档

java 参考文档

空空如也

spark 论文 中文版

MapReduce: Simplified Data Processing on Large Clusters 中文版

The Google File System 中文版

linux命令文档

java 参考文档

空空如也

spark 论文中文版