自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

翻译 机器学习驱动的语言测试

这里写自定义目录标题机器学习驱动的语言测试背景Item Response Theory (IRT, 项目反应理论或潜在特质理论)computer-adaptive testing (CAT,计算机自适应测试)The Common European Framework of Reference (CEFR, 欧洲语言共同参考框架)测试结构和测试形式The Vocabulary Scale 词汇评级特征模型实验The Passage Scale 文章评级模型特征语料库文章难度排名实验文章难度评级实验事后验证实验

2020-06-22 21:49:02 208

原创 阿里云E-mapreduce 如何提交自己的jar包并运行

源起租用了E-mapreduce服务器,如何运行自己的spark程序。参考官方文档:点spark作业配置, 我只是更详细的描述一下操作步骤。操作步骤一、创建作业1. 作业2. 创建作业3. 输入你平常在虚拟机提交任务时的指令,并做以下修改:  1)只保留“spark-submit”之后的内容 (因为在后台提交时,它会自动加上这句话)  2)jar包的路径 是存在oss的buket中的,选择“选择O...

2018-06-22 16:01:54 1059

原创 阿里云E-MapReduce SSH集群登录及本地查看Hadoop等系统的webUI

源起:终于到了租用云服务器的时候了,想想还有点小激动呢。EMR的官方文档上关于ssh集群登录的操作步骤已经很详细了,而且还有视频,但是实际操作的时候总会遇到一些意想不到的问题,于是我就把我配置的过程记录下来,以供参考。配置步骤:配置过程基本参照EMR的官方文档:SSH集群登录一、SSH登陆集群master节点1. 下载安装  PuTTY,Puttygen 2. 打开puutygen, 点击gene...

2018-06-21 11:22:06 696

原创 spark 在集群运行时遇到的一些问题

人工导航:1,Exceptionin thread "main"org.apache.hadoop.ipc.RemoteException(java.io.IOException): File/user/pangying/.sparkStaging/application_1522735609126_0001/__spark_libs__4275647205298765018.zipcould o...

2018-04-03 17:11:07 1944

原创 python form scapy.all import * 报错

源起:我需要使用scapy包对一些流量文件做处理,但是代码import scapy执行没有问题,代码form scapy import *就会出现问题。错误提示是:Traceback (most recent call last): File "F:/Python_code/getForderName/get_features2.py", line 12, in <module>...

2018-03-12 16:28:02 5629 2

原创 KEEL 的一般操作步骤详细说明

源起实验室一个一位师姐着急赶毕业论文,时间紧张,我就帮她KEEL做了一些小实验。虽然去年用KEEL做过一些实验,但是猛地拿起来还是有些生疏,就在做实验的过程中整理了一下基本的操作过程,以防今后再突然要用的时候浪费时间。正文以做modules 里的Imbalanced实验为例。1,双击打开KEEL的执行jar包2,导入数据:选择Data Management2,选择 Import  Data3,选择...

2018-03-08 19:45:04 2885 14

原创 Python sklearn KFold 生成交叉验证数据集

源起:1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求。2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型。3.在编码过程中有一的误区需要注意:这个sklearn官方给出的文档>>> import numpy as np>>> from sklearn.m...

2018-03-06 11:23:40 13934

原创 Mahout random forest 随机森林小案例

写在前面菜鸟真的需要耗费大量的时间各种试才能解决问题啊。。。~~o(>_首先介绍一下我尝试的过程,大家可以参考着排排错。1. 我最初用的是mahout最新的0.13版本,想要按照官方给出的案例(Classifying with random forests)测试并学习一下随机森林的用法,但是发现根本没办法按照这个官方文档去做。虽然官方给出的0.13版本API的文档,但是它的测试用例还是

2018-01-24 20:52:16 1044

原创 Mahout 用朴素贝叶斯对20 Newsgroups 数据分类的案例

源起《Mahout in Action(Mahout 实战)》这本书的第14.6节有一个用朴素贝叶斯对20 Newsgroups 进行数据分类的案例,但是由于该出出版使用的是mahout0.6版本进行的实验,我用目前最新的0.13版本已经不能再重复这个实验了(mahout做了很多改动)。ERROR MahoutDriver: : Try the new vector backed naiv

2018-01-22 21:50:33 588

原创 Hadoop学习过程遇到的问题总结

问题一问题描述:8/01/22 16:52:16 WARN Client: Failed to connect to server: master/192.168.217.128:10020: retries get failed due to exceeded maximum allowed retries number: 10java.net.ConnectException

2018-01-22 21:33:42 3255

原创 Github项目 hadoop-imbalanced-preprocessing 如何运行

源起:hadoop-imbalanced-preprocessing是基于MapReduce实现的随机过采样,随机欠采样和SMOTE算法的程序,它主要解决在大数据环境下类别不平衡问题的数据预处理的问题。该项目直接集成在Mahout项目的代码里面。如果对hadoop 的MapReduce框架和Mahout了解很少的话,会对这个代码很难入手,不知道如何运行它。解决方案:我一开始没有去了解M

2018-01-17 16:40:18 417

原创 Hadoop MapReduce案例word count本地环境运行时遇到的一些问题

问题一加载不到主类原因:我一开始创建的是Map/Reduce Project, 它会直接去我本地安装的hadoop里面寻找相应的jar包。但是由于我一开始将hadoop放在D:\Program Files文件夹下,应为该路径中间有个空格,所以没有找到相应的jar包。解决方案:将hadoop移出D:\Program Files文件夹,直接放到D盘下,然后重新配置环境变量问题二lo

2018-01-08 17:13:04 795

原创 Hadoop-Eclipse-Plugin 安装

写在前面每次遇到两三天解决不了的问题,我都会在心里说,这个问题要是解决了,我一定要整理出来写成博客。可是问题解决完成之后,就会觉得,原来这么容易就能解决,真不值得一写。其实这一次,我并没有解决所遇到的问题,只是绕过了问题。而且我知道,接下来还会有很多更难更复杂的问题等着我去解决。我不知道在这个过程中我会卡在哪个问题上以至于前功尽弃。我现在的状态几乎等于还有开始,我这样在心里上给自己打预防针

2018-01-07 21:06:32 9224 3

原创 Hadoop 2.8.2 和 Spark 2.1.0 分布式搭建及遇到的一些小问题

分布式搭建下载所需的安装包,建立相应的文件夹,将安装包发送到对应的安装包中去。安装JDK1. 解压安装包2. cd 进入解压后的文件夹,pwd获取JAVA_HOME路径/home/pangying/java/jdk1.8.0_1513. 配置环境变量4. 使配置生效5. 检查是否配置成功安装Hadoop1. 解压安

2018-01-05 10:44:08 450

原创 Hadoop集群活跃节点为0解决方案

Hadoop集群活跃节点为0解决方案问题描述我按照教程修改了Hadoop下的配置文件,然后使用start-all.sh启动整个集群。jps查看每个节点该启动的进程都启动了,可以访问master:50070页面,但是其中的Live Nodes项显示为0, 可是我明明有两个data node服务器。解决思路造成这样结果的原因有很多,如多单纯的copy这样的问题去问度娘,很难快速得到满意的答案。但是也可以

2017-11-14 10:53:17 3435

原创 作者年份 soft computing参考文献格式要求,LaTeX实现

如果你所投的期刊要求使用作者年份作为索引引用参考文献(如soft computing等),参考文献列表不需要序号,且按作者姓氏首字母排序,如图。你可以参考本文的方法实现。 Step1. BibTex首先你需要使用BibTex去存放参考文献,bibliographystyl使用spbasic,‘bibfile’是我的.bib文件的文件名,需要根据自己实际的文件名进行替换。\usepackage[ro

2017-08-16 17:15:20 5827 1

原创 Python 删除连续出现的指定字符

Python 删除连续出现的指定字符

2017-03-27 17:00:50 3012

原创 机器学习 Logistic回归 原理Python实现

基本思想回归:假设有一些数据点,我们用一条直线对这些数据点进行拟合(该线成为最佳拟合直线),这个拟合过程就称为回归。Logistic回归主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类,使用最优化算法寻找最佳拟合参数。Logistic回归优缺点优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 使用数据类型:数值型和标称型Sigmoid函数为了对数据进行预测分类,

2016-11-28 16:40:14 2054

原创 朴素贝叶斯原理及Python实现

朴素贝叶斯分类器优缺点优点:在数据较少的情况下依然有效,可以处理多分类问题 缺点:对输入数据的准备方式较为敏感 使用数据类型:标称型数据算法原理朴素贝叶斯分类器是基于贝叶斯概率理论构建的,即我们希望通过一个已知事务的先验概率(条件概率)去推测该事物的后验概率。 首先我们来回顾一下贝叶斯概率理论原理: 贝叶斯公式说明: 1,事件A在事件B发生的条件下的概率,与事件B在事件A发生的条件下的概率

2016-11-22 11:09:41 922

原创 ID3 决策树 Python实现

算法原理根据信息增益的评判准则,选择一个当前最优的特征对数据集进行分割,递归此操作,直到最后被分割的子数据集只含有一种类型的样本或者用完所有的特征,最后选择该子集中多数的类别最为该子集的最终类别(当然也可以有)。信息增益熵(Entropy):指信息的期望值 熵是一个很玄的概念,人类的成长过程其实就是一个降低熵的过程,就像人刚出生事,大脑内的每一个神经元都是互相连接的,然后随着年龄的增长不断的断掉一

2016-11-17 09:41:34 351

原创 机器学习----K-近邻算法(Python代码详解)

本博文的内容主要是我在自学《Machine Learning in Action》的中文版《机器学习实战》的总结。K-近邻算法一、算法概述K-近邻算法就是采用测量不同特征值之间的距离进行分类。 距离采用欧式距离计算公式,计算两个向量点xA和xB之间的距离: d=(xA0−xB0)2+(xA1−xB1)2−−−−−−−−−−−−−−−−−−−−−−−√ d = \sqrt{(xA_0-

2016-10-10 19:56:13 595

翻译 Covert Communication in Mobile Applications 手机应用中的隐秘通信

原文链接:http://people.csail.mit.edu/mjulia/publications/Covert_Communication_in_Mobile_Applications_2015.pdf原文题目:Covert Communication in Mobile Applications手机应用中的隐秘通信Julia Rubin_, Michael I. Go

2016-07-18 14:05:26 1145

原创 Myeclipse tomcat debug(调试模式)启动过慢的问题

Myeclipse tomcat debug(调试模式)启动过慢的问题

2016-04-01 17:13:48 2248

原创 UnicodeDecodeError: 'utf8' codec can't decode byte pytho控制台输入参数编码问题

Python从cmd控制台得到输入参数时,由于控制台的编码格式默认是ascall编码,所以在Python中用utf-8的需求十刃用参数时就会出错。于是我们就会想调用name.encode('utf-8')方法进行编码,但是随之而来的又是一个新的错误:UnicodeDecodeError: 'utf8' codec can't decode byte...这个错误的解决方案也是我从网上找

2016-03-25 11:02:41 558

原创 bootstrap Model 点击确定按钮后 转到新页面

我们在中文文档或是一些教程上看到的Model案例的footer部分大都是这样写的:确定这样子点击确定按钮后,网站就会跳转到一个新的空白页,原因就是 a标签的href="#"属性。解决方法很简单:保存

2016-03-16 15:47:37 2979

原创 JAVA web调用执行python脚本程序的四种方式,回避java.lang.OutOfMemoryError:PermGen space内存溢出问题

我在网上搜到的JAVA调用python程序的三种方式:方式一:调用python函数。可以传入参数,获取返回值。  public static void PythonFunctionTest(){         //python 解释器         PythonInterpret

2016-03-06 19:26:01 4423

原创 JSON字符串转化为JSONOBJECT对象

import net.sf.json.JSONObject;        String jsonString=" {\n" +                    "    \"rows\": [{\n" +                    "        \"id\": 1,\n" +                    "        \"pcapName\

2015-12-28 14:14:04 823

提示
确定要删除当前文章?
取消 删除