自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(79)
  • 资源 (8)
  • 收藏
  • 关注

原创 maven 总结

测试测试例必需以Test开头或结尾run pom.xmleclipse:maven build clean test / mvn clean test自动化测试mvn cleanmvn clean compile mvn clean testmvn clean packagemvn clean install下面的命令包含上面的命令maven-compiler-plugin:<plugin> <groupId>org.apache.maven.

2020-05-30 09:13:50 376

原创 hive on spark 同时只能提交一个任务错误处理

同时提交几个任务时报FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session 1e458098-9ef7-4709-a117-c1b0b6ea0eee_0: java....

2020-04-21 14:40:11 1249 1

原创 canal kafka camus整合

一、camus配置camus.job.name=Camus Job#hdfs存放路径etl.destination.path=/user/hive/warehouse/binlog.db#offsets, error logs, and count files存放路径etl.execution.base.path=/camus/exec#完成的jobs的输出路径etl.execut...

2020-04-07 19:50:20 1043 1

原创 spark 笛卡尔积优化

因业务需求,需对两份数据进行关联,然后进行计算,然后想到笛卡尔积。在最开始用spark对他进行处理的时候,他总是卡死在一个地方跑不出数据。需对其进行优化。1. 任务代码data1 = hc.sql(" select a.*,b.* from tableA a ,tableB b").rdd.map(list) 2. 优化方式1对数据进行分区rdd.repartition(50),...

2019-04-08 15:12:21 4301 1

原创 elasticsearch多磁盘扩容

1、问题由于早前elasticsearch集群数据存储路径只配置了一个,所以某天磁盘突然爆满,集群差点当机。需重新配置多路径存储路径,因为在生产环境,得保证集群不死掉,只能一台一台配置重启。2、修改配置文件修改elasticsearch.yml中path.data属性,添加多路径以逗号分隔path.data : /opt/data1,/opt/data23、查看集群状态curl -XGET "htt

2017-10-11 14:04:02 6760 3

转载 正规方程 Normal Equation

转自http://blog.csdn.net/u012328159/article/details/51036272 前几篇博客介绍了一些梯度下降的实用技巧,特征缩放(详见http://blog.csdn.net/u012328159/article/details/51030366)和学习率(详见http://blog.csdn.net/u012328159/article/details/51

2017-09-13 10:03:46 1997

转载 Elasticsearch之elasticsearch5.x 新特性

转自:http://www.cnblogs.com/zlslch/p/6619089.html1、首先看看跟性能有关的1.1 aggregation 的改进也是非常大, Instant Aggregations。 Elasticsearch已经在Shard层面提供了Aggregation缓存,如果你的数据没有变化,ES能够直接返回上次的缓存结果,但是有一个场景比较特殊,就是 date histo

2017-09-11 13:51:23 566

原创 使用spark mllib 随机森林算法对文本进行多分类

1、数据准备我使用的数据是公司人工标注文本数据,样本如下:1#k-v#*亮亮爱宠*波波宠物指甲钳指甲剪附送锉刀适用小型犬及猫特价1#k-v#*顺丰包邮*宠物药品圣马利诺PowerIgG免疫力球蛋白犬猫细小病毒1#k-v#*包邮*法国罗斯蔓草本精华宠物浴液薰衣草护色润泽香波拍套餐1#k-v#*包邮*家朵102宠物沐浴液1#k-v#*包邮*家朵102宠物沐浴液猫2、分词使用ansj包对文本数据去

2017-08-14 16:44:45 3599 1

原创 Elasticsearch线程池配置

1、查看节点状态GET _nodes/stats2、查看集群配置信息GET _cluster/settings3、线程池的三种类型cached #无限制的线程池,为每个请求创建一个线程。这种线程池是为了防止请求被阻塞或者拒绝,其中的每个线程都有一个超时时间(keep_alive),默认5分钟,一旦超时就会回收/终止。fixed #有着固定大小的线程池,大小由size属性指定,默认是5*core

2017-07-19 11:42:27 9920

转载 SVM多类划分问题 one vs rest 和 one vs one理解

一对多法(one-versus-rest,简称OVR SVMs)训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样k个类别的样本就构造出了k个SVM。分类时将未知样本分类为具有最大分类函数值的那类。 假如我有四类要划分(也就是4个Label),他们是A、B、C、D。于是我在抽取训练集的时候,分别抽取A所对应的向量作为正集,B,C,D所对应的向量作为负集;B所对应的向量作为正集,A,

2017-07-11 09:48:10 7529

转载 ElasticSearch 常用的查询过滤语句

query 和 filter 的区别请看: http://www.cnblogs.com/ghj1976/p/5292740.html Filter DSLterm 过滤term主要用于精确匹配哪些值,比如数字,日期,布尔值或 not_analyzed 的字符串(未经分析的文本数据类型): { “term”: { “age”: 26 }} { “term”: { “d

2017-06-26 14:10:17 1598

原创 mongodb使用

1、nest array querydb.inventory.find( { 'instock.0.qty': { $lte: 20 } } )2、正则查询{"$and":[{"day":{$gt:"2017-06-05"}},{"result.simpleSubject":{"$regex":"床头灯"}}]}3、查询连接超时你在用 db.collection.find() 的时候,它返回的不是所

2017-06-08 10:17:44 666

原创 httpclient的几种post参数格式

1、json格式HttpClientContext context = HttpClientContext.create(); httpPost.setURI(java.net.URI.create(url)); if(null != headers) { for (String name : hea

2017-06-03 11:26:35 27226 2

转载 Linux下的SVN服务器搭建

转自http://www.cnblogs.com/mymelon/p/5483215.html 鉴于在搭建时,参考网上很多资料,网上资料在有用的同时,也坑了很多人本文的目的,也就是想让后继之人在搭建svn服务器时不再犯错,不再被网上漫天的坑爹作品所坑害,故此总结/*开始****/系统环境:Centos 6.5第一步:通过yum命令安装svnserve,命令如下:yum -y install sub

2017-05-16 14:20:41 418

转载 (转)Redis集群方案应该怎么做?

转自https://www.zhihu.com/question/21419897 本来只是跟一位高人请教知识,但是看到这个问题总是忍不住想把学到的拿过来用。所以就简简单单的列上几种方案吧。那么问题来了。(这次看着不像博客了吧- -!) 为什么集群?通常,为了提高网站响应速度,总是把热点数据保存在内存中而不是直接从后端数据库中读取。Redis是一个很好的Cache工具。大型网站应用,热点数据量往往

2017-05-15 17:40:12 1207

原创 mysql数据通过fluent同步到阿里云datahub填坑过程

1、ruby安装#wget http://cache.ruby-lang.org/pub/ruby/2.1/ruby-2.1.1.tar.gz#tar zxvf ruby-2.1.1.tar.gz#cd ruby-2.1.1#./configure --prefix=/root/bi/ruby --with-opessl-dir=/root/bi/openssl-1.0.0l#make &&

2017-03-18 14:59:57 1821

转载 android apk反编译详解

使用工具: apktool dex2jar jd-gui 工具介绍:apktool 作用:资源文件获取,可以提取出图片文件和布局文件进行使用查看dex2jar 作用:将apk反编译成Java源码(classes.dex转化成jar文件)jd-gui 作用:查看APK中classes.dex转化成出的jar文件,即源码文件反编译流程:一、apk反编译得到程序的源代码、图片、XML配置

2017-03-14 10:49:48 1423

原创 sparkmllib算法实例

逻辑回归import org.apache.spark.ml.classification.LogisticRegression// Load training dataval training = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")val lr = new LogisticRegression

2017-01-12 15:22:00 8114 4

原创 sparkmllib 特征抽取、特征转换及特征选择

特征抽取TF-IDFTF-IDF一般应用于文本挖掘中,用来反映一个特征项的重要性。设特征项为 t,文档为d,文档集为D。特征频率( term frequency)TF(t,d) 为特征项在文档d中出现在次数。 文档频率(document frequency)DF(t,D)表示含特征项t的文档数。如果只是用tf来衡量重要性,那么对于一遍文档中出现多次但含信息量极少来说是没什么用处的。因此可以用逆文

2017-01-05 17:08:58 3983

原创 sparkmllib数据类型

局部向量有三种方式创建局部向量import org.apache.spark.mllib.linalg.{Vector, Vectors}// Create a dense vector (1.0, 0.0, 3.0).val dv: Vector = Vectors.dense(1.0, 0.0, 3.0)// Create a sparse vector (1.0, 0.0, 3.0) by

2017-01-05 16:06:55 874

原创 SpringMVC+Json构建基于Restful api

web.xml配置<?xml version="1.0" encoding="UTF-8"?><web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://java.sun.com/xml/ns/javaee" xsi:schemaLocation="http://java.sun.com/xml/ns/j

2017-01-04 16:25:34 1266

原创 maven库

<repositories> <repository> <id>nexus</id> <name>local private nexus</name> <url>http://maven.oschina.net/content/groups/publ

2017-01-04 00:12:45 790

转载 Shell脚本在Linux下运行错误的解决方法

当在Linux下写好一个脚本之后保存在windows上,在Windows上修改以后再传到Linux上,可能脚本就不能执行了。出现这种错误的原因是因为:CR/LF问题,在dos/window下按一次回车键实际上输入的是“回车(CR)”和“换行(LF)”,而Linux/unix下按一次回车键只输入“换行(LF)”,所以修改的sh文件在每行都会多了一个CR,所以Linux下运行时就会报错找不到命令。举出两

2016-12-28 14:38:58 3443

原创 spark sql

SparkSessionSparkSession是所有函数的入口,通过SparkSession.builder()来创建SparkSession。import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basic example") .config("s

2016-12-28 14:38:00 2616

转载 闭包理解:js

http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html由于在Javascript语言中,只有函数内部的子函数才能读取局部变量,因此可以把闭包简单理解成”定义在一个函数内部的函数”。所以,在本质上,闭包就是将函数内部和函数外部连接起来的一座桥梁。闭包就是能够读取其他函数内部变量的函数。在js中,它的最大用处有两个

2016-12-22 16:31:46 643

原创 Redis常用操作

//DEL 删除指定keyDEL name//序列化keyDUMP name//判断key是否存在EXISTS name//设置key过期时间EXPIRE key//设置key过期时间 不过是时间戳格式 ,指定什么时间点过期EXPIREAT// 查找所有符合给定模式 pattern 的 key KEYS * 匹配数据库中所有 key 。KEYS h?llo 匹配 hello , hal

2016-12-14 16:51:16 1965

转载 flume与kafka区别

转自:https://ask.hellobi.com/question/13741, http://www.cnblogs.com/lishouguang/p/4560858.html http://www.open-open.com/lib/view/open1435884136903.html http://www.cnblogs.com/i

2016-12-13 10:46:29 3316

原创 activemq

简介activemq有两种消息模型:队列(Queue)和主题(Topic)1、点对点(point-to-point,简称PTP)Queue消息传递模型: 通过该消息传递模型,一个应用程序(即消息生产者)可以向另外一个应用程序(即消息消费者)发送消息。在此传递模型中,消息目的地类型是队列(即Destination接口实现类实例由Session接口实现类实例通过调用其createQueue方法并

2016-12-12 17:04:41 1284

转载 hashcode & equals通俗理解

hashcode是用来查找的如果你学过数据结构就应该知道,在查找和排序这一章有例如内存中有这样的位置 0 1 2 3 4 5 6 7 而我有个类,这个类有个字段叫ID,我要把这个类存放在以上8个位置之一,如果不用hashcode而任意存放,那么当查找时就需要到这八个位置里挨个去找,或者用二分法一类的算法。 但如果用hashcode那就会使效率提高很多。 我们这个

2016-12-09 16:53:39 865

转载 设计模式之单例模式

转自http://devbean.blog.51cto.com/448512/203501/ 所谓单例模式,简单来说,就是在整个应用中保证只有一个类的实例存在。就像是Java Web中的application,也就是提供了一个全局变量,用处相当广泛,比如保存全局数据,实现全局性的操作等。1. 最简单的实现首先,能够想到的最简单的实现是,把类的构造函数写成private的,从而保证别的类不能实例化此

2016-12-01 16:00:12 736

转载 设计模式之工厂模式 & 单例模式(并发生成单例)

转自http://segmentfault.com/a/1190000000369620 描述:对象的新建统一由工厂创建,避免客户端直接通过构造方法新建实例;对于创建对象的工厂可以可以使其在整个应用中保持唯一的实例,避免过多的垃圾工厂对象。 场景:一个<发送者>可以发送邮件或者短信,为日后扩展发送文件功能,可以定义短信工厂和邮件工厂生产<发送者>,为方便管理,提供一个工厂管理类负责生成工厂实例

2016-12-01 15:55:49 1040

原创 多线程之主线程等待多线程

通过CountDownLatch来控制 import java.util.concurrent.CountDownLatch;public class ImportThread extends Thread { private CountDownLatch threadsSignal; public ImportThread(CountDownLatch threadsSignal)

2016-12-01 15:52:29 924

原创 如何让一段代码tomcat启动就运行

1. 在 web.xml 里面配置为 listener <listener> <listener-class>com.pandaroid.uniqueonline.UniqueOnlineSessionListener</listener-class></listener>public class UniqueOnlineSessionListener implements Htt

2016-12-01 15:50:53 1564

原创 线程池

把一个任务分解成多个任务,而由于任务太多,不能一次并发执行,需把这些任务进行分批处理,用线程池来处理此问题。import org.apache.log4j.Logger;public class TaskStartProcessor implements Runnable{ private static Logger logger = Logger.getLogger(TaskStartPr

2016-12-01 15:48:58 886

原创 动态代理

讨论动态代理,首先来讨论一下静态代理,所谓代理就是一个对象的方法总是在另外一个对象中执行,有两种方式来实现代理,一种是继承,另外一种是聚合。如果用继承的话,会导致重复代理太多,通常情况下是使用聚合进行代理。 下面一个静态代理例子: Count.java /** * 定义一个账户接口 * * @author Administrator * */ public inter

2016-12-01 15:45:09 801

原创 hadoop RPC

hadoop 启动后,有5个java进程,实际上这是5个RPC server进程,利用了jetty容器。 DataNode和NameNode通过hadoop的FileSystem进行通信。NameNode服务端,DataNode客户端. RPC(远程方法调用)用于进程间通信 下面是hadoop的通信过程 (利用动态代理实现)。

2016-12-01 15:40:15 919

原创 xampp wordpress 建站

下载下载xampp xampp-linux-1.8.3-2-installer.run安装给文件授权 chmod 777 xampp-linux-1.8.3-2-installer.run运行./xampp-linux-1.8.3-2-installer.run 测试连接http://localhost点击phpMyAdmin 创建数据库安装wordpressphpmyadmin用户pma安装过

2016-12-01 15:38:24 900

原创 反射snippet

Class clazz = entity.getClass();try {Method method = clazz.getDeclaredMethod("setStatus", new Class[]{Boolean.class});method.invoke(entity, true);Method method2 = clazz.getDeclaredMethod("setModifi

2016-12-01 15:34:10 825

原创 spark configuration and monitor

http://spark.apache.org/docs/latest/configuration.html#networking

2016-11-30 16:10:30 831

原创 spark on yarn

启动确保HADOOP_CONF_DIR 或YARN_CONF_DIR 指向相应的目录。 有两种启动方式:cluster mode 和 client mode。 cluster mode:./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app

2016-11-30 14:22:04 1001

es api文档

es api java例子

2015-10-19

离散数学课后习题答案

离散数学课后习题答案 清华版的 离散数学课后习题答案 清华版的

2012-03-05

王爽汇编答案汇编课后习题答案汇编课后习题答案

汇编课后习题答案汇编课后习题答案汇编课后习题答案汇编课后习题答案汇编课后习题答案汇编课后习题答案

2010-01-09

数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案

数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案

2009-05-28

数据结构试卷数据结构试卷数据结构试卷数据结构试卷

数据结构试卷数据结构试卷数据结构试卷数据结构试卷数据结构试卷数据结构试卷数据结构试卷

2009-05-28

深度优先遍历 深度优先遍 深度优先遍

深度优先遍深度优先遍深度优先遍深度优先遍深度优先遍深度优先遍深度优先遍深度优先遍

2009-05-28

操作系统概念课后答案(第七版)

操作系统概念课后答案(第七版)操作系统概念课后答案(第七版)操作系统概念课后答案(第七版)

2009-03-17

数据库系统概论答案数据库系统概论答案

很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大

2009-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除