阿里云E-mapreduce 如何提交自己的jar包并运行

源起租用了E-mapreduce服务器,如何运行自己的spark程序。参考官方文档:点spark作业配置, 我只是更详细的描述一下操作步骤。操作步骤一、创建作业1. 作业2. 创建作业3. 输入你平常在虚拟机提交任务时的指令,并做以下修改:  1)只保留“spark-submit”之后的内容 (因...

2018-06-22 16:01:54

阅读数 561

评论数 0

阿里云E-MapReduce SSH集群登录及本地查看Hadoop等系统的webUI

源起:终于到了租用云服务器的时候了,想想还有点小激动呢。EMR的官方文档上关于ssh集群登录的操作步骤已经很详细了,而且还有视频,但是实际操作的时候总会遇到一些意想不到的问题,于是我就把我配置的过程记录下来,以供参考。配置步骤:配置过程基本参照EMR的官方文档:SSH集群登录一、SSH登陆集群ma...

2018-06-21 11:22:06

阅读数 355

评论数 0

spark 在集群运行时遇到的一些问题

人工导航:1,Exceptionin thread "main"org.apache.hadoop.ipc.RemoteException(java.io.IOException): File/user/pangying/.sparkStaging/applic...

2018-04-03 17:11:07

阅读数 886

评论数 0

python form scapy.all import * 报错

源起:我需要使用scapy包对一些流量文件做处理,但是代码import scapy执行没有问题,代码form scapy import *就会出现问题。错误提示是:Traceback (most recent call last): File "F:/Python_code/...

2018-03-12 16:28:02

阅读数 3316

评论数 1

KEEL 的一般操作步骤详细说明

源起实验室一个一位师姐着急赶毕业论文,时间紧张,我就帮她KEEL做了一些小实验。虽然去年用KEEL做过一些实验,但是猛地拿起来还是有些生疏,就在做实验的过程中整理了一下基本的操作过程,以防今后再突然要用的时候浪费时间。正文以做modules 里的Imbalanced实验为例。1,双击打开KEEL的...

2018-03-08 19:45:04

阅读数 1198

评论数 8

Python sklearn KFold 生成交叉验证数据集

源起:1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求。2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型。3.在编码过程中有一的误区需要注意:这个sklearn官方给出的文档&amp...

2018-03-06 11:23:40

阅读数 5053

评论数 0

Mahout random forest 随机森林小案例

写在前面 菜鸟真的需要耗费大量的时间各种试才能解决问题啊。。。~~o(>_ 首先介绍一下我尝试的过程,大家可以参考着排排错。 1. 我最初用的是mahout最新的0.13版本,想要按照官方给出的案例(Classifying with random forests)测试并学习一下随机森林...

2018-01-24 20:52:16

阅读数 596

评论数 0

Mahout 用朴素贝叶斯对20 Newsgroups 数据分类的案例

源起 《Mahout in Action(Mahout 实战)》这本书的第14.6节有一个用朴素贝叶斯对20 Newsgroups 进行数据分类的案例,但是由于该出出版使用的是mahout0.6版本进行的实验,我用目前最新的0.13版本已经不能再重复这个实验了(mahout做了很多改动)。 E...

2018-01-22 21:50:33

阅读数 382

评论数 0

Hadoop学习过程遇到的问题总结

问题一 问题描述: 8/01/22 16:52:16 WARN Client: Failed to connect to server: master/192.168.217.128:10020: retries get failed due to exceeded maximum a...

2018-01-22 21:33:42

阅读数 2481

评论数 0

Github项目 hadoop-imbalanced-preprocessing 如何运行

源起: hadoop-imbalanced-preprocessing是基于MapReduce实现的随机过采样,随机欠采样和SMOTE算法的程序,它主要解决在大数据环境下类别不平衡问题的数据预处理的问题。该项目直接集成在Mahout项目的代码里面。如果对hadoop 的MapReduce框架和M...

2018-01-17 16:40:18

阅读数 274

评论数 0

Hadoop MapReduce案例word count本地环境运行时遇到的一些问题

问题一 加载不到主类 原因:我一开始创建的是Map/Reduce Project, 它会直接去我本地安装的hadoop里面寻找相应的jar包。但是由于我一开始将hadoop放在D:\Program Files文件夹下,应为该路径中间有个空格,所以没有找到相应的jar包。 解决方案:将hado...

2018-01-08 17:13:04

阅读数 576

评论数 0

Hadoop-Eclipse-Plugin 安装

写在前面 每次遇到两三天解决不了的问题,我都会在心里说,这个问题要是解决了,我一定要整理出来写成博客。可是问题解决完成之后,就会觉得,原来这么容易就能解决,真不值得一写。 其实这一次,我并没有解决所遇到的问题,只是绕过了问题。而且我知道,接下来还会有很多更难更复杂的问题等着我去解决。我不知道在...

2018-01-07 21:06:32

阅读数 6084

评论数 2

Hadoop 2.8.2 和 Spark 2.1.0 分布式搭建及遇到的一些小问题

分布式搭建 下载所需的安装包,建立相应的文件夹,将安装包发送到对应的安装包中去。 安装JDK 1. 解压安装包 2. cd 进入解压后的文件夹,pwd获取JAVA_HOME路径 /home/pangying/java/jdk1.8.0_151 3. 配置环境变量 ...

2018-01-05 10:44:08

阅读数 257

评论数 0

Hadoop集群活跃节点为0解决方案

Hadoop集群活跃节点为0解决方案问题描述我按照教程修改了Hadoop下的配置文件,然后使用start-all.sh启动整个集群。jps查看每个节点该启动的进程都启动了,可以访问master:50070页面,但是其中的Live Nodes项显示为0, 可是我明明有两个data node服务器。解...

2017-11-14 10:53:17

阅读数 1824

评论数 0

作者年份 soft computing参考文献格式要求,LaTeX实现

如果你所投的期刊要求使用作者年份作为索引引用参考文献(如soft computing等),参考文献列表不需要序号,且按作者姓氏首字母排序,如图。你可以参考本文的方法实现。 Step1. BibTex首先你需要使用BibTex去存放参考文献,bibliographystyl使用spbasic,‘b...

2017-08-16 17:15:20

阅读数 3586

评论数 0

Python 删除连续出现的指定字符

Python 删除连续出现的指定字符

2017-03-27 17:00:50

阅读数 2123

评论数 0

机器学习 Logistic回归 原理Python实现

基本思想回归:假设有一些数据点,我们用一条直线对这些数据点进行拟合(该线成为最佳拟合直线),这个拟合过程就称为回归。Logistic回归主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类,使用最优化算法寻找最佳拟合参数。Logistic回归优缺点优点:计算代价不高,易于理解和实现 缺点...

2016-11-28 16:40:14

阅读数 1927

评论数 0

朴素贝叶斯原理及Python实现

朴素贝叶斯分类器优缺点优点:在数据较少的情况下依然有效,可以处理多分类问题 缺点:对输入数据的准备方式较为敏感 使用数据类型:标称型数据算法原理朴素贝叶斯分类器是基于贝叶斯概率理论构建的,即我们希望通过一个已知事务的先验概率(条件概率)去推测该事物的后验概率。 首先我们来回顾一下贝叶斯概率理...

2016-11-22 11:09:41

阅读数 799

评论数 0

ID3 决策树 Python实现

算法原理根据信息增益的评判准则,选择一个当前最优的特征对数据集进行分割,递归此操作,直到最后被分割的子数据集只含有一种类型的样本或者用完所有的特征,最后选择该子集中多数的类别最为该子集的最终类别(当然也可以有)。信息增益熵(Entropy):指信息的期望值 熵是一个很玄的概念,人类的成长过程其实...

2016-11-17 09:41:34

阅读数 266

评论数 0

机器学习----K-近邻算法(Python代码详解)

本博文的内容主要是我在自学《Machine Learning in Action》的中文版《机器学习实战》的总结。K-近邻算法一、算法概述K-近邻算法就是采用测量不同特征值之间的距离进行分类。 距离采用欧式距离计算公式,计算两个向量点xA和xB之间的距离: d=(xA0−xB0)2...

2016-10-10 19:56:13

阅读数 440

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭