自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (3)
  • 收藏
  • 关注

原创 pyspark使用jieba.analyse报错IOError: [Errno 20] Not a directory:

问题:jieba打包zip后上传spark运行jieba.analyse包中tfidf报错:IOError: [Errno 20] Not a directory: 'XXXX/jieba.zip/jieba/analyse/idf.txt'解决方案:修改analyse包下的tf_idf.py如下(代码参考自:https://github.com/fxsjy/jieba/pull/539/files):# encoding=utf-8from __future__ import ab

2020-08-20 11:37:01 1084

转载 R语言学习笔记

文章出处:http://blog.csdn.net/jack237/article/details/8210598参考:W.N. Venables, D.M. Smith and the R DCT: Introduction to R -- Notes on R: A Programming Environment for Data Analysis and Graphi

2015-06-25 14:45:09 2184

转载 R语言Data Frame数据框常用操作

Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的。Data Frame每一列有列名,每一行也可以指定行名。如果不指定行名,那么就是从1开始自增的Sequence来标识每一行。初始化使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个stu

2015-06-25 14:20:38 978

转载 R语言数据储存与读取

write.table(c, file = "C:/Users/Oliver/Desktop/foo.txt", row.names = F,col.names=F, quote = F)1 首先用getwd() 获得当前目录,用setwd("C:/data")设定当前目录 2 数据保存创建数据框d>d data.frame(obs = c(1, 2,

2015-06-24 17:11:37 1000

转载 R语言 数据的输入方式总结

1.使用C函数连接数据2.使用c,cbind,rbind结合变量3.使用Vector函数结合数据4.使用矩阵结合数据5.使用data.frame函数结合数据6.使用list函数结合数据c 向量 数组 矩阵 数据框 列表 1.使用C函数连接数据se #可以在逗号的任一一边加上空格 增加代码的可读性#查看severe的前3个值se

2015-06-24 17:09:17 1711

转载 R语言中矩阵运算

目录:1_矩阵的生成2_矩阵的四则运算3_矩阵的矩阵运算4_矩阵的分解 1_1将向量定义成数组     向量只有定义了维数向量(dim属性)后才能被看作是数组.比如:> z=1:12;> dim(z)=c(3,4);> z;     [,1] [,2] [,3] [,4][1,]    1    4  

2015-06-22 14:57:57 1844

转载 遗传算法与TSP问题的MATLAB实现

最近越来越发现很难不受外界干扰的进行学习,可能与九月份这个躁动的求职季节有关,看着师兄们每天忙着奔走于各个公司的宣讲会,心中有种莫名的心情,时常想起大学毕业时的情景:四月经历考研失败;五月忙于毕业设计;六月刚毕业答辨完就和同学离开学校奔走于武汉各招聘会;两个星期后终于将自己“卖”出去;七月做着人生的一份工作。。。时常会清晰的感觉时间的紧迫,但还是得按步就部,不能冒进,一步一个脚印,坚持学习与提高自

2015-06-08 18:23:36 10795 2

转载 ERROR 1044 (42000): Access denied for user ''@'localhost' to database 'mysql'

1.关闭mysql   # service mysqld stop2.屏蔽权限   # mysqld_safe --skip-grant-table   屏幕出现: Starting demo from .....3.新开起一个终端输入   # mysql -u root mysql   mysql> delete from user where USER=''; 

2015-04-22 13:50:52 381

转载 WEKA使用教程

目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名

2015-04-21 15:38:11 436

转载 个人推荐的Weka教程,包含了数据格式、数据准备、分类和聚类Demo

出处:http://irwenqiang.iteye.com/blog/1308834WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到       同时weka也是新西兰的一种鸟名,

2015-04-21 15:32:59 641

转载 决策树的剪枝理论

文章出处:http://blog.sina.com.cn/s/blog_4e4dec6c0101fdz6.html剪枝理论,决策树的剪枝在上一节中没有仔细讲,趁这个机会学习了剪枝的基础理论,这里会详细学习。决策树为什么(WHY)要剪枝?原因是避免决策树过拟合(Overfitting)样本。前面的算法生成的决策树非常详细并且庞大,每个属性都被详细地加以考虑

2015-04-20 21:16:14 824

转载 JVM内存模型及垃圾收集策略解析

JVM内存模型是Java的核心技术之一,之前51CTO曾为大家介绍过JVM分代垃圾回收策略的基础概念,现在很多编程语言都引入了类似Java JVM的内存模型和垃圾收集器的机制,下面我们将主要针对Java中的JVM内存模型及垃圾收集的具体策略进行综合的分析。一 JVM内存模型1.1 Java栈Java栈是与每一个线程关联的,JVM在创建每一个线程的时候,会分配一定的栈空间给线

2015-04-20 20:57:08 286

转载 Java 泛型

文章出处:http://www.cnblogs.com/dingyingsi/p/3761635.html1.首先在没有泛型之前,一旦把一个对象丢进java集合中,集合就会忘记对象的类型,把所有对象当成Object类型来处理。当程序从集合中取出对象时,就需要进行强制类型转换,这种强制类型转换不仅代码臃肿,而且容易引起ClassCastException异常。

2015-04-20 11:06:26 349

转载 JVM 内存初学 (堆(heap)、栈(stack)和方法区(method) )

文章出处:http://www.cnblogs.com/dingyingsi/p/3760730.html这两天看了一下深入浅出JVM这本书,推荐给高级的java程序员去看,对你了解JAVA的底层和运行机制有比较大的帮助。废话不想讲了.入主题:先了解具体的概念:JAVA的JVM的内存可分为3个区:堆(heap)、栈(stack)和方法区(method)

2015-04-20 11:03:57 330

转载 深入理解JVM—JVM内存模型

文章出处:http://www.cnblogs.com/dingyingsi/p/3760447.html我们知道,计算机CPU和内存的交互是最频繁的,内存是我们的高速缓存区,用户磁盘和CPU的交互,而CPU运转速度越来越快,磁盘远远跟不上CPU的读写速度,才设计了内存,用户缓冲用户IO等待导致CPU的等待成本,但是随着CPU的发展,内存的读写速度也远远跟不

2015-04-20 11:02:16 291

转载 对Java编程的忠告

编写Java程序的注意事项,对Java编程思想的忠告。  (1) 类名首字母应该大写。字段、方法以及对象(句柄)的首字母应小写。对于所有标识符,其中包含的所有单词都应紧靠在一起,而且大写中间单词的首字母。例如:  1. ThisIsAClassName thisIsMethodOrFieldName  若在定义中出现了常数初始化字符,则大写static final基本类型标识符中的所有

2015-04-15 00:24:44 381

转载 余弦距离、欧氏距离和杰卡德相似性度量的对比分析

文章出处:http://www.cnblogs.com/chaosimple/archive/2013/06/28/3160839.html1、余弦距离余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两

2015-04-13 21:12:20 520

转载 VMware虚拟机中如何安装VMWare-Tools详解

转载出处:http://www.cnblogs.com/kingkoo/archive/2007/12/28/1018613.htmlVMware虚拟机中如何安装VMWare-Tools详解好处:可以支持图形界面,可以支持共享文件功能等VMware虚拟机中如何配置显卡 VMware作为一款虚拟机利器,很多人都利用它来实现Linux与W

2015-04-12 20:04:03 376

转载 Spark1.0.x入门指南

文章出处:http://www.cnblogs.com/Scott007/p/3849677.html1 节点说明 IPRole192.168.1.111ActiveNameNode192.168.1.112StandbyNameNode,Master,Worker

2015-04-08 20:13:48 594

转载 Spark安装部署

Spark是UC Berkeley AMPLab开发的类MapRed计算框架。MapRed框架适用于batch job,但是由于它自身的框架限制,第一,pull-based heartbeat作业调度。第二,shuffle中间结果全部落地disk,导致了高延迟,启动开销很大。而Spark是为迭代式,交互式计算所生的。第一,它采用了actor model的akka作为通讯框架。第二,它使用了RDD分

2015-04-08 18:35:30 608

转载 spark 安装

http://blog.csdn.net/hxpjava1/article/details/19177913环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客大部分都还停留在需要依赖mesos的

2015-04-08 18:31:38 344

转载 Java Collection

文章出处:http://skyuck.iteye.com/blog/526358在 Java2中,有一套设计优良的接口和类组成了Java集合框架Collection,使程序员操作成批的数据或对象元素极为方便。这些接口和类有很多对抽象数据类型操作的API,而这是我们常用的且在数据结构中熟知的。例如Map,Set,List等。并且Java用面向对象的设计对这些数据结构和算法

2015-04-01 19:20:50 292

转载 【决策树】— C4.5算法建立决策树JAVA练习

转载出处:http://www.cnblogs.com/lixusign/archive/2012/06/13/2548124.html以下程序是我练习写的,不一定正确也没做存储优化。有问题请留言交流。转载请挂连接。当前的属性为:age income student credit_rating当前的数据集为(最后一列是TARGET_VALUE):

2015-03-31 23:51:41 728

转载 BigDecimal类

前面介绍float、double两种基本浮点类型时已经指出,这两个基本类型的浮点数容易引起精度丢失,先看如下程序:  public class TestDouble{ public static void main(String[] args) { System.out.println("0.05+0.01="+(0.05+0.01)); System.out.println("1

2015-03-31 23:49:08 465

原创 scp permission denied please try again.

vim /etc/ssh/sshd_configPermitRootLogin no 改为 yessudo /etc/init.d/sshd restart

2015-03-27 13:29:08 2129

转载 一步步教你Hadoop多节点集群安装配置

1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲,可以分成两大类角色

2015-03-27 12:46:27 380

转载 公开大数据集

https://delicious.com/pskomoroch/dataset http://wiki.gephi.org/index.php/Datasetshttp://stackoverflow.com/questions/10843892/download-large-data-for-hadoophttp://datamob.org/datasetsht

2015-03-26 16:09:49 1516 1

转载 GraphLab数据集

GraphLab  dataset http://graphlab.org/downloads/datasets/

2015-03-26 16:08:43 584

转载 数据挖掘中的大数据集

Data repositoriesAWS (Amazon Web Services) Public Data Sets, provides a centralized repository of public data sets that can be seamlessly integrated into AWS cloud-based applications.BigML b

2015-03-26 16:07:46 613

原创 ubuntu安装jdk

java -version查看安装包,然后使用 apt-get install openjdk-8-jre-headless选择安装包安装就好了

2015-03-24 00:52:09 247

转载 rpm:RPM should not be used directly install RPM packages, use Alien instead!

http://www.dedevip.org/2406-rpm-should-not-be-used-directly-install-rpm-packages-use-alien-instead-.htmlDo not install rpm in Debian (I don't mean flash-plugin, I mean rpm package management). Deb

2015-03-24 00:34:25 3030

转载 在ubuntu中配置SSH(解决connect to host localhost port 22: Connection refused问题)

Ubuntu下测试ssh时使用ssh localhost 命令,出现错误提示connect to host localhost port 22:Connection refused 造成这个错误的原因可能是ssh-server未安装或者未启动。ubuntu 11.10 默认安装openssh-client,但是木有安装server 运行 ps -e | grep s

2015-03-23 23:07:21 633

转载 一步步教你Hadoop多节点集群安装配置

1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲,可以分成两大类角色

2015-03-23 17:04:10 398

转载 (EM算法)The EM Algorithm

EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式      回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是

2015-03-23 15:26:05 283

转载 对线性回归,logistic回归和一般回归的认识

【转载时请注明来源】:http://www.cnblogs.com/jerrylead     JerryLead     2011年2月27日     作为一个机器学习初学者,认识有限,表述也多有错误,望大家多多批评指正。1 摘要      本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习

2015-03-23 15:13:09 359

转载 LR(逻辑回归)

本系列文章用于汇集知识点,查漏补缺,面试找工作之用。数学公式较多,解释较少。1.假设2.sigmoid函数:3.假设的含义:4.性质:5.找一个凸损失函数6.可由最大似然估计推导出单个样本正确预测的概率为只是3两个式子合并在一起的表示方法整个样本空间的概率分布为取

2015-03-18 23:52:21 478

转载 Linux chmod命令修改文件与文件夹权限的命令附实例

语法:chmod [who] [+ | - | =] [mode] 文件名命令中各选项的含义为u 表示“用户(user)”,即文件或目录的所有者。g 表示“同组(group)用户”,即与文件属主有相同组ID的所有用户。o 表示“其他(others)用户”。a 表示“所有(all)用户”。它是系统默认值。操作符号可以是:+ 添加某个权限。- 取消某个权限。

2015-03-17 16:05:18 365

转载 linux服务器之间传输文件的几种方式

1. scp【优点】简单方便,安全可靠;支持限速参数【缺点】不支持排除目录【用法】scp就是secure copy,是用来进行远程文件拷贝的。数据传输使用 ssh,并且和ssh 使用相同的认证方式,提供相同的安全保证 。 命令格式:scp [参数] : :举例:scp /home/work/source.txt work@192.

2015-03-17 12:50:04 596

转载 在 Linux 如何更改文本文件的字符编码

问题:在我的 Linux 系统中有一个编码为 iso-8859-1 的字幕文件,其中部分字符无法正常显示,我想把文本改为 utf8 编码。在 Linux 中, 有没有一个好的工具来转换文本文件的字符编码?正如我们所知道的那样,电脑只能够处理低级的二进制值,并不能直接处理字符。当一个文本文件被存储时,文件中的每一个字符都被映射成二进制值,实际存储在硬盘中的正是这些“二进制值”。之后当程序

2015-03-17 12:15:06 639

转载 linux mysql 操作命令

1.linux下启动mysql的命令:mysqladmin start/ect/init.d/mysql start (前面为mysql的安装路径)2.linux下重启mysql的命令:mysqladmin restart/ect/init.d/mysql restart (前面为mysql的安装路径)3.linux下关闭mysql的命令:mysqladmin

2015-03-16 10:25:14 334

东北大学计算机考研历年复试真题

东北大学计算机考研历年复试真题,PDF版本,很清晰

2014-04-13

JSP网上购物+论文+源码+开题+外文 全套毕业设计

JSP网上购物+论文+源码+开题+外文 全套毕业设计

2013-05-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除