自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

转载 jdbc查询大量数据内存溢出的解决方法

当使用jdbc从mysql中查询大量数据时,有可能会导致内存溢出。为了避免这种情况的发生可以对数据库进行分页查询。 public static void main(String[] args){     String url = "jdbc:mysql://localhost:3306/test";     String username = "username";  

2016-08-26 10:08:27 11262 3

转载 Java IO最详解

初学Java,一直搞不懂java里面的io关系,在网上找了很多大多都是给个结构图草草描述也看的不是很懂。而且没有结合到java7 的最新技术,所以自己来整理一下,有错的话请指正,也希望大家提出宝贵意见。首先看个图:(如果你也是初学者,我相信你看了真个人都不好了,想想java设计者真是煞费苦心啊!) 这是java io 比较基本的一些处理流,除此之外我们还会提到一些比

2016-04-21 18:17:16 230

转载 中文分词之Java实现使用IK Analyzer实现

IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例

2016-03-20 18:58:13 423

原创 mysql 设置自增主键

通过show create table 查看结果如下:发现‘id’字段并非主键,现在需要把其设置为主键且自增,语句如下:alter table xun1 drop id;alter table xun1 add id int(6) not null primary key auto_increment first;其中 first 是把该字段放到第一个字段的意思。结果如下:

2016-03-15 13:51:21 646

转载 支持向量机-核函数

7 核函数(Kernels)考虑我们最初在“线性回归”中提出的问题,特征是房子的面积x,这里的x是实数,结果y是房子的价格。假设我们从样本点的分布中看到x和y符合3次曲线,那么我们希望使用x的三次多项式来逼近这些样本点。那么首先需要将特征x扩展到三维,然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射(feature mapping)。映射函数称作,在这个例子中

2015-11-06 14:15:53 367

转载 oracle 快速删除大批量数据方法(全部删除,条件删除,删除大量重复记录)

全部删除如果是删除某个表的所有数据,并且不需要回滚,使用 TRUNCATE 就ok了。关于Trancate 参见这里http://blog.csdn.net/gnolhh168/archive/2011/05/24/6442561.aspxSQL> truncate   table   table_name; 条件删除如果删除数据有条件,如 delete f

2015-10-19 21:16:51 1438

转载 Oracle截取字符串和查找字符串

oracle 截取字符(substr),检索字符位置(instr) case when then else end语句使用 收藏 常用函数:substr和instr1.SUBSTR(string,start_position,[length])    求子字符串,返回字符串解释:string 元字符串       start_position   开始位置(从0开始)     

2015-10-18 16:13:16 349

转载 Oracle 去重复的数据

重复的数据分两种,一种是表中部分字段的重复,一种是两行以上的记录完全一样。部分字段的重复:查询不重复的数据SQL:select 字段1,字段2,count(*) from 表名 group by 字段1,字段2 having count(*) = 1部分字段重复数据的删除:查询重复的数据SQL:select 字段1

2015-10-18 15:15:47 225

转载 使用libsvm实现文本分类

文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度。然而,作为文本分类,它还具有文本这样的约束,所以对于文本来说,需要额外的处理过程,我们结合使用libsvm从宏观上总结一下,基于libsvm实现文本分类实现的基本过程,如下所示:选择文本训练数据集和测试数据集:训练集和测试集都是类标签已知的;

2015-07-31 21:08:56 464

转载 mahout

目录preface1 使用kmeans算法实例2 mahout杂记3 mahout聚类算法4 mahout运行bayes(贝叶斯)算法preface运行自带的例子来进行测试第1章 使用kmeans算法实例(1)http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_con

2015-07-30 19:29:15 528

转载 Eclipse中运行MapReduce程序时控制台无法打印进度信息的问题

一般会在控制台上打印以下信息:[plain] view plaincopylog4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell).  log4j:WARN Please initialize the log4j system prop

2015-07-27 11:13:53 522

转载 linux之sed用法

sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法sed命令行格式为:         sed [-nefri] ‘command’ 输入文本        常用选项:        -n∶使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般

2015-07-27 09:04:03 184

转载 Sqoop中文手册

Sqoop在我们的实际工作中有一些应用,为了对Sqoop的使用有个更全面的了解,于是我花了一些时间将Sqoop的使用整理成了一份中文手册,我自认还是非常全面的,覆盖到了Sqoop所有的方面。虽然对每一个用法,我都是尽可能地先经过测试然后再得出结论,但可能难免会有谬误,不过总的来说希望能对使用Sqoop的朋友有点帮助吧。1.概述本文档主要对SQOOP的使用进行了说

2015-07-25 12:25:50 316

原创 有关yarn异常处理

问题描述:       配置好yarn框架后,运行wordcount例子时提示yarn.exceptions.YarnException: Unauthorized request to start container.解决办法:       这很有可能是解群节点时间不一致造成的。同步各个节点时间后,一般问题可以解决。

2015-07-25 12:24:19 463

原创 ubuntu 下输入法问题

刚玩ubuntu系统,系统刚装上的时候,汉语(pinyin)输入法老是搞不定,比如打anzhuang汉字老是出错,最后发现是ibus框架未启动。终端执行ibus-daemon -d -x -r即可

2015-07-25 12:22:06 361

转载 ubuntu 查看文件编码并进行批量编码修改

ubuntu下的安装命令:sudo apt-get install encaenca查看文件enca -L zh_CN file 查看文件编码enca -L zh_CN -x UTF-8 file 更改文件编码enca -L zh_CN -x UTF-8 file2 不想覆盖原文件下面是一个脚本,批量更改文件编码

2015-07-24 09:06:00 513

转载 Hive去重复数据

这几天我一直在研究Hive,我们今天看一个新的知识,Hive去重复数据。Hive数据去重Sql代码  insert overwrite table store      select t.p_key,t.sort_word from         ( select p_key,               sort_word ,               row_num

2015-07-10 15:10:24 1830

转载 hive正则表达式

hive中实现正则表达式,与java中的正则表达式有所区别:这里经过探索总结了一些:hive中的正则可以用,但是有所区别,区别在于原来的‘\’ 转义,这里变成了双斜杠了‘\\’hive中的正则解析函数:regexp_extract;    例如:‘匹配 10.122.248’select regexp_extract(host,'(^[\\w]+)\\.([

2015-07-10 14:43:43 1074

转载 开启Hadoop2.6.0出现ssh无法解析主机名等错误提示的解决办法!

[root@hd-m1 /]# ./hadoop/hadoop-2.6.0/sbin/start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-yarn.sh15/01/23 20:23:41 WARN util.NativeCodeLoader: Unable to load native-ha

2015-03-05 18:41:23 422

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除