- 博客(33)
- 资源 (2)
- 收藏
- 关注
原创 Spark SQL UDF
目前 Spark SQL 不支持自定义UDF ,底层 SQL 引擎用的 catalyst 。在SqlContext 中 有一个 Analyzer@transient protected[sql]lazyval analyzer:Analyzer = newAnalyzer(catalog, Em
2014-09-13 22:17:05 928
原创 搭建Spark Eclipse 开发环境
1、安装 Sbt ,是一个类似 maven 的工具。下载地址:http://www.scala-sbt.org/release/docs/Getting-Started/Setup.html 2、在~/.sbt/plugins/plugins.sbt (Windows:C:\Users\Administrator\.sbt\0.13\plugins) 里面加一名: addSbtP
2014-04-25 09:25:12 3461 1
原创 Pig对于数据倾斜Join的优化原理
Pig对于数据倾斜Join的优化原理1、对数据抽样2、根据样本数据,估计出某个key的所有的记录数以及所占的总内存,pig.skewedjoin.reduce.memusage 控制reduce消耗内存比例,再计算出某个key所需要的reduce个数,以及reduce的总数。3、将结果存一个文件中,相当于索引文件,格式为:(swpv,0,3), (swps,4,5)(说明:,, )
2014-03-21 17:59:24 1245
原创 BP(反向传播)神经网络 java 实现
/** * */package ann.bp;import java.util.Random;/** * @author tian.yj * */public class BPAnn { private double eta ; private int hn ; private int on ; private double b = 1.0 ; private
2014-01-16 15:45:03 1312 1
原创 linux php 安装错误解决
Linux安装PHP ,make 的时候报错:make: *** [ext/dom/node.lo] Error 1解决办法:$ curl -o php-5.2.17.patch https://mail.gnome.org/archives/xml/2012-August/txtbgxGXAvz4N.txt$ tar jxf php-5.2.17.tar.bz2
2013-09-18 10:14:18 2047 1
原创 HNC-全局联想脉络
全局联想脉络—语义块 和句类 一个语义块包含 核心部分 和说明部分。 语义块分为:主语义块:有 4 种:特征E、作用者A、对象B、内容C辅语义块:有 7 种:条件、手段、工具、途径、参照、因、果。 只表达作用效应链的一个环节的句类称为基本句类,表达两个或多个环节的句类称为混合句类。 E语义块构成的句子,分别命名
2013-07-30 17:45:02 570
原创 HNC-局部联想脉络
局部联想脉络概念分为:抽象概念、具体概念对抽象概念用 五元组 和 语义网络 表达对具体概念用 挂靠展开近似 表达 五元组:动态、静态、属性、值、效应。(u,g,u,z,r),用于表达抽象概念的外在表现。 语义网络(表达抽象概念的内涵):1. 基元概念语义网络Ø 主体基元概念:有6个一级节
2013-07-29 16:05:25 516
原创 线性回归算法,最小二乘法,java的实现
线性回归算法,最小二乘法,java的实现/** * 最小二乘法 线性回归 * y = a x + b * * b = sum( y ) / n - a * sum( x ) / n * * a = ( n * sum( xy ) - sum( x ) * sum( y ) ) / ( n * sum( x^2 ) - sum(x) ^ 2 ) * * @au
2013-05-16 13:26:24 3738 1
原创 一道面试题算法
题目为:给你1-1000个连续自然数,然后从中随机去掉两个,再打乱顺序,要求只遍历一次,求出被去掉的两个数。有一种算法,用的异或,实际上是遍历不只一次,具体异或的算法:http://blog.leezhong.com/tech/2011/06/03/php-xor-find-num.html今天想到另一种算法,用方程求解。m = ( 1 + 2 + ...+ 1000) - (998
2013-03-08 10:14:19 804
原创 MongoDB 分片、主从配置 及 原理
有三台机器:A、B、C(三个主从复制,两个分片)1、分别在 A、B、C 三台机器上启动 两个分片、主从服务,命令如下: bin/mongod --shardsvr --replSet shard1 --port 27017 --dbpath /data/shard1_1 --logpath /data/shard1_1/shard1_1.log --logappend --fork注意
2013-02-26 10:20:53 1236
转载 Apache Mahout 简介
在信息时代,公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息。无论是每天处理数以千计的个人电子邮件消息,还是从海量博客文章中推测用户的意图,都需要使用一些工具来组织和增强数据。 这其中就蕴含着机器学习 领域以及本文章所介绍项目的前景:Apache Mahout(见 参考资料)。机器学习是人工智能的一个分支,它涉及通过一些技术来允许计算机根据之前的经验改善其输出。此领域与数
2013-02-19 15:48:08 415
原创 hadoop reduce 复制不过来的问题
hadoop reduce 复制阶段 , 有时候 一直停留一个 数据的复制,一直复制不过去。reduce > copy (135 of 159 at 16.00 MB/s) 如果出现这样的问题,不多数原因是因为 hostname 和 hosts 配置的问题。1. hostname 和 slaves 中配置一致。2. hosts 中必须配置 别名,别名 和host
2013-01-17 14:50:54 875
原创 Unicode 解码
package util;import java.nio.ByteBuffer;import java.nio.charset.Charset;import java.util.regex.Matcher;import java.util.regex.Pattern;/** * @author tian * */public class CharSetUtil { /**
2013-01-15 11:34:07 1593 1
转载 hadoop目录
参数描述 默认 配置文件例子值dfs.name.dirname node的元数据,以,号隔开,hdfs会把元数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉{hadoop.tmp.dir}/dfs/namehdfs-site.xm/hadoop/hdfs/namedfs.name.edits.di
2012-12-25 16:35:08 127
转载 hadoop端口号列表
常用的端口配置HDFS端口参数描述默认配置文件例子值fs.default.namenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/dfs.http.address NameNode web管理端口5007
2012-12-25 13:39:45 2947 1
原创 Nutch 抓取一半自动停下的问题解决
用Nutch抓取的时候,问题遇到: WARN crawl.Generator: Generator: 0 records selected for fetching, exiting ... INFO crawl.Crawl: Stopping at depth=1 - no more URLs to fetch.可能问题有:1. Filter 过滤的问题,看正则写的对不对。
2012-11-28 14:17:08 1460
原创 Nutch 模块简单介绍
Nutch 的入口 是 : Crawl 。主要模块:1。Injector将 入口 url 放入 crawldb 中。并初始化 crawldb。2。Generator读取crawldb中 的url,过滤出将要抓取的url列表,叫 fetchlist ,并生成相应的 segment。3。Fetcher将 fe
2012-11-26 14:57:03 710
转载 配置hadoop 使用fair scheduler调度器
hadoop版本为cloudera hadoop cdh3u3配置步骤为1. 将$HADOOP_HOME/contrib/fairscheduler/hadoop-fairscheduler-0.20.2-cdh3u3.jar拷贝到$HADOOP_HOME/lib文件夹中2. 修改$HADOOP_HOME/conf/mapred-site.xml配置文件
2012-11-17 10:13:52 800
原创 Hadoop SSH配置,启动 输入密码 解决
1. ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa2.cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 这两步可以实现,本地 ssh localhost,配置完后,最好先 ssh 一下,这样可以生成一些东西到 ~/.ssh/known_hosts 如果是 伪分布式的,ssh 已经配置完成了。有的系统,
2012-11-16 17:41:01 2312
转载 Nutch 命令(官方)
Setup Nutch from binary distributionDownload a binary package (apache-nutch-1.X-bin.zip) from here.Unzip your binary Nutch package. There should be a folder apache-nutch-1.X.cd apache-
2012-11-15 11:04:55 520
原创 linux 目录详解
使用linux也有一年多时间了 最近也是一直在维护网站系统主机 下面是linux目录结构说明 本人使用的是centos系统,很久没有发表博文了 近期会整理自己所用所了解知识点,发表linux相关的文章,记录自己的linux点点滴滴。 linux 目录结构 /: 根目录,一般根目录下只存放目录,不要存放文件,/etc、/bin、/de
2012-11-12 17:38:05 790
原创 Nutch、Hadoop、Lucene、Solr 之间 的数据交互
Nutch1.4最近一段在研究Nutch、Solr,Nutch 把数据 存放在 HDFS 上,想探讨一下 Nutch 是怎么把数据存储到HDFS 上,查看源码分析。在看 Nutch 源码时,没有找到一点于 Lucene 关联的内容,Nutch 把所有的,都按自己的重新写了一遍,NutchDocument、NutchField ,都 实现 Hadoop的 Writable 接口。这样就很容易
2012-03-28 19:10:03 3077 4
原创 下载Excel,IE zip 问题,直接打开报错
下载 Excel 的时候,如果是 2007 的,IE 下载下来是 zip ,不是zip 的,直接开报错问题。2003 和 2007 的ContentType标准不一样。在web.xml中加: xls application/vnd.ms-excel xlsx application/vnd.openxmlformats-officedocument.spre
2012-03-01 18:32:02 1107
原创 java 基于 MemCache 的队列实现
在用Memcache 的时候,想有一个类似于队列的功能。import java.util.Collection;import com.danga.MemCached.MemCachedClient;/** * 基于MemCache的一个队列实现 * @author v_tianyongjun * */public class MemCacheQueue{ private s
2012-02-24 20:19:08 1299
原创 java 同步代码
Pool.javapublic class Pool { private static Pool pool = new Pool(); private int count ; private int mount = 80 ; private Pool(){} public static Pool getInstance(){ return pool; }
2012-02-06 16:14:27 456
转载 ssh: connect to host localhost port 22: Connection refused ,已经安装过ssh
在配置 Hadoop 的时候,ssh 已经安装过了,一直 ssh 连接不上,网上找了好多资料,都千篇一律,最终找到一篇 管用的。如下:SSH ( Security SHell ) 是Linux 通用的远程登录连接协议安装:在Cygwin包Net->openssh$ssh localhostssh: connect to host localhost
2012-02-02 13:41:23 1256
原创 Office 2007 Mime Types (for IIS)
.docm,application/vnd.ms-word.document.macroEnabled.12.docx,application/vnd.openxmlformats-officedocument.wordprocessingml.document.dotm,application/vnd.ms-word.template.macroEnabled.12.dotx,applic
2012-01-29 18:39:25 492
原创 Lucene 构造Query,查询多个Field
在 Lucene 中,查询多 Field 构造Query ,最先想到 MultiFieldQueryParser ,但是构造的时候 必须有个 queryString ,就是搜索一个串,去匹配多个Field 。有时候有这样的需求,每个 Field 匹配的不一样,如更新索引时,需要更精确匹配到,这样的就没法满足了。TermQuery query1 = new TermQuery(term1);
2011-12-27 16:25:58 909
原创 jquery ajax datatype json 总是进error函数
以前用jQuery1.4没这种问题,现在用1.6遇到这种问题。用JQuery的ajax,dataType=json ,后台返回的json格式正确 但总是进到error里面,经查找原因后,JQuery1.4 以后,返回的json格式必须是标准的格式,像{a:"a"} 这种是错误的必须是{"a":"a"}
2011-12-16 18:57:51 2237
原创 上传文件的问题 及解决方法
最近在做个文件上传,最开始用Flash的一个上传组件,Flash 上传 在IE下是正常的,FireFox、Chrome 下有问题,IE 下Flash和文档本身是同一个连接,FireFox、Chrome下Flash是另一个连接,所以和文档本身不属于同一个Session,问题就来了。一种解决办法是,js 把Cookie里 JSESSIONID 取出来,设置到Flash里的一个参数里,然后上传的时候
2011-12-16 18:57:08 515
原创 ckeditor 配置 上传 图片(缺少图像源文件地址)
前两天研究ckecitor,使用图片上传功能,找了好多教程在 config.js 里面 加上: config.filebrowserImageUploadUrl = '/context/uploadpath'; // 上传图片 的 Action然后 在后台返回 图片路径,一直不正确 ,报一个 缺少图像源文件地址 错误,一直找不到原因,因为打不开官网也不知道需要后台返回什么格式。
2011-12-16 18:55:54 4790 7
原创 java 取泛型的Class(T.class)及创建 T[] 数组
在java中 class Test{} ,如果在Test类中要创建 T 的实例 ,取 T 的Class ,及创建 T[] 实例 ,不能直接用 (new T() / new T[size] / T.class 这些都是错误的。)java 代码编译后,泛型会被擦除,所以 取出来并不那么容易。对于Class而言T已经被擦拭为Object,而真正的T参数被转到使用T的方法(或者变量
2011-12-15 12:07:42 1850 1
原创 POI 生成 Excel ,关于 下拉列表(有效性)
POI 生成 Excel ,生成下拉列表(有效性)即 Excel 中有效性的 序列,值可以是 按逗号分开的,但这种长度有限制。具体方法:CellRangeAddressList rl = new CellRangeAddressList();String[] list = {"aa","bb"};CellRangeAddress address = new CellRangeAdd
2011-12-15 11:52:03 4088
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人