illbehere-CSDN博客

原创 maven 总结

测试测试例必需以Test开头或结尾run pom.xmleclipse:maven build clean test / mvn clean test自动化测试mvn cleanmvn clean compile mvn clean testmvn clean packagemvn clean install下面的命令包含上面的命令maven-compiler-plugin：<plugin> <groupId>org.apache.maven.

2020-05-30 09:13:50 431

原创 hive on spark 同时只能提交一个任务错误处理

同时提交几个任务时报FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session 1e458098-9ef7-4709-a117-c1b0b6ea0eee_0: java....

2020-04-21 14:40:11 1377 1

原创 canal kafka camus整合

一、camus配置camus.job.name=Camus Job#hdfs存放路径etl.destination.path=/user/hive/warehouse/binlog.db#offsets, error logs, and count files存放路径etl.execution.base.path=/camus/exec#完成的jobs的输出路径etl.execut...

2020-04-07 19:50:20 1189 1

原创 spark 笛卡尔积优化

因业务需求，需对两份数据进行关联，然后进行计算，然后想到笛卡尔积。在最开始用spark对他进行处理的时候，他总是卡死在一个地方跑不出数据。需对其进行优化。1. 任务代码data1 = hc.sql(" select a.*,b.* from tableA a ,tableB b").rdd.map(list) 2. 优化方式1对数据进行分区rdd.repartition(50)，...

2019-04-08 15:12:21 4398 1

原创 elasticsearch多磁盘扩容

1、问题由于早前elasticsearch集群数据存储路径只配置了一个，所以某天磁盘突然爆满，集群差点当机。需重新配置多路径存储路径，因为在生产环境，得保证集群不死掉，只能一台一台配置重启。2、修改配置文件修改elasticsearch.yml中path.data属性，添加多路径以逗号分隔path.data : /opt/data1,/opt/data23、查看集群状态curl -XGET "htt

2017-10-11 14:04:02 6876 2

转载正规方程 Normal Equation

转自http://blog.csdn.net/u012328159/article/details/51036272 前几篇博客介绍了一些梯度下降的实用技巧，特征缩放（详见http://blog.csdn.net/u012328159/article/details/51030366）和学习率（详见http://blog.csdn.net/u012328159/article/details/51

2017-09-13 10:03:46 2063

转载 Elasticsearch之elasticsearch5.x 新特性

转自:http://www.cnblogs.com/zlslch/p/6619089.html1、首先看看跟性能有关的1.1 aggregation 的改进也是非常大， Instant Aggregations。 Elasticsearch已经在Shard层面提供了Aggregation缓存，如果你的数据没有变化，ES能够直接返回上次的缓存结果，但是有一个场景比较特殊，就是 date histo

2017-09-11 13:51:23 614

原创使用spark mllib 随机森林算法对文本进行多分类

1、数据准备我使用的数据是公司人工标注文本数据，样本如下：1#k-v#*亮亮爱宠*波波宠物指甲钳指甲剪附送锉刀适用小型犬及猫特价1#k-v#*顺丰包邮*宠物药品圣马利诺PowerIgG免疫力球蛋白犬猫细小病毒1#k-v#*包邮*法国罗斯蔓草本精华宠物浴液薰衣草护色润泽香波拍套餐1#k-v#*包邮*家朵102宠物沐浴液1#k-v#*包邮*家朵102宠物沐浴液猫2、分词使用ansj包对文本数据去

2017-08-14 16:44:45 3700 1

原创 Elasticsearch线程池配置

1、查看节点状态GET _nodes/stats2、查看集群配置信息GET _cluster/settings3、线程池的三种类型cached #无限制的线程池，为每个请求创建一个线程。这种线程池是为了防止请求被阻塞或者拒绝，其中的每个线程都有一个超时时间(keep_alive)，默认5分钟，一旦超时就会回收/终止。fixed #有着固定大小的线程池，大小由size属性指定，默认是5*core

2017-07-19 11:42:27 10037

转载 SVM多类划分问题 one vs rest 和 one vs one理解

一对多法（one-versus-rest,简称OVR SVMs）训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类，这样k个类别的样本就构造出了k个SVM。分类时将未知样本分类为具有最大分类函数值的那类。假如我有四类要划分（也就是4个Label），他们是A、B、C、D。于是我在抽取训练集的时候，分别抽取A所对应的向量作为正集，B,C,D所对应的向量作为负集；B所对应的向量作为正集，A,

2017-07-11 09:48:10 7882

转载 ElasticSearch 常用的查询过滤语句

query 和 filter 的区别请看： http://www.cnblogs.com/ghj1976/p/5292740.html Filter DSLterm 过滤term主要用于精确匹配哪些值，比如数字，日期，布尔值或 not_analyzed 的字符串(未经分析的文本数据类型)： { “term”: { “age”: 26 }} { “term”: { “d

2017-06-26 14:10:17 1664

原创 mongodb使用

1、nest array querydb.inventory.find( { 'instock.0.qty': { $lte: 20 } } )2、正则查询{"$and":[{"day":{$gt:"2017-06-05"}},{"result.simpleSubject":{"$regex":"床头灯"}}]}3、查询连接超时你在用 db.collection.find() 的时候，它返回的不是所

2017-06-08 10:17:44 694

原创 httpclient的几种post参数格式

1、json格式HttpClientContext context = HttpClientContext.create(); httpPost.setURI(java.net.URI.create(url)); if(null != headers) { for (String name : hea

2017-06-03 11:26:35 27392

转载 Linux下的SVN服务器搭建

转自http://www.cnblogs.com/mymelon/p/5483215.html 鉴于在搭建时，参考网上很多资料，网上资料在有用的同时，也坑了很多人本文的目的，也就是想让后继之人在搭建svn服务器时不再犯错，不再被网上漫天的坑爹作品所坑害，故此总结/*开始****/系统环境：Centos 6.5第一步：通过yum命令安装svnserve，命令如下：yum -y install sub

2017-05-16 14:20:41 450

转载（转）Redis集群方案应该怎么做？

转自https://www.zhihu.com/question/21419897 本来只是跟一位高人请教知识，但是看到这个问题总是忍不住想把学到的拿过来用。所以就简简单单的列上几种方案吧。那么问题来了。(这次看着不像博客了吧- -！) 为什么集群？通常，为了提高网站响应速度，总是把热点数据保存在内存中而不是直接从后端数据库中读取。Redis是一个很好的Cache工具。大型网站应用，热点数据量往往

2017-05-15 17:40:12 1254

原创 mysql数据通过fluent同步到阿里云datahub填坑过程

1、ruby安装#wget http://cache.ruby-lang.org/pub/ruby/2.1/ruby-2.1.1.tar.gz#tar zxvf ruby-2.1.1.tar.gz#cd ruby-2.1.1#./configure --prefix=/root/bi/ruby --with-opessl-dir=/root/bi/openssl-1.0.0l#make &&

2017-03-18 14:59:57 1885

转载 android apk反编译详解

使用工具： apktool dex2jar jd-gui 工具介绍：apktool 作用：资源文件获取，可以提取出图片文件和布局文件进行使用查看dex2jar 作用：将apk反编译成Java源码（classes.dex转化成jar文件）jd-gui 作用：查看APK中classes.dex转化成出的jar文件，即源码文件反编译流程：一、apk反编译得到程序的源代码、图片、XML配置

2017-03-14 10:49:48 1632

原创 sparkmllib算法实例

逻辑回归import org.apache.spark.ml.classification.LogisticRegression// Load training dataval training = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")val lr = new LogisticRegression

2017-01-12 15:22:00 8205

原创 sparkmllib 特征抽取、特征转换及特征选择

特征抽取TF-IDFTF-IDF一般应用于文本挖掘中，用来反映一个特征项的重要性。设特征项为 t,文档为d,文档集为D。特征频率（ term frequency）TF(t,d) 为特征项在文档d中出现在次数。文档频率（document frequency）DF(t,D)表示含特征项t的文档数。如果只是用tf来衡量重要性，那么对于一遍文档中出现多次但含信息量极少来说是没什么用处的。因此可以用逆文

2017-01-05 17:08:58 4041

原创 sparkmllib数据类型

局部向量有三种方式创建局部向量import org.apache.spark.mllib.linalg.{Vector, Vectors}// Create a dense vector (1.0, 0.0, 3.0).val dv: Vector = Vectors.dense(1.0, 0.0, 3.0)// Create a sparse vector (1.0, 0.0, 3.0) by

2017-01-05 16:06:55 914

原创 SpringMVC+Json构建基于Restful api

web.xml配置<?xml version="1.0" encoding="UTF-8"?><web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://java.sun.com/xml/ns/javaee" xsi:schemaLocation="http://java.sun.com/xml/ns/j

2017-01-04 16:25:34 1310

原创 maven库

<repositories> <repository> <id>nexus</id> <name>local private nexus</name> <url>http://maven.oschina.net/content/groups/publ

2017-01-04 00:12:45 825

转载 Shell脚本在Linux下运行错误的解决方法

当在Linux下写好一个脚本之后保存在windows上，在Windows上修改以后再传到Linux上，可能脚本就不能执行了。出现这种错误的原因是因为：CR/LF问题，在dos/window下按一次回车键实际上输入的是“回车（CR)”和“换行（LF）”，而Linux/unix下按一次回车键只输入“换行（LF）”，所以修改的sh文件在每行都会多了一个CR，所以Linux下运行时就会报错找不到命令。举出两

2016-12-28 14:38:58 3506

原创 spark sql

SparkSessionSparkSession是所有函数的入口，通过SparkSession.builder()来创建SparkSession。import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basic example") .config("s

2016-12-28 14:38:00 2665

转载闭包理解：js

http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html由于在Javascript语言中，只有函数内部的子函数才能读取局部变量，因此可以把闭包简单理解成”定义在一个函数内部的函数”。所以，在本质上，闭包就是将函数内部和函数外部连接起来的一座桥梁。闭包就是能够读取其他函数内部变量的函数。在js中，它的最大用处有两个

2016-12-22 16:31:46 668

原创 Redis常用操作

//DEL 删除指定keyDEL name//序列化keyDUMP name//判断key是否存在EXISTS name//设置key过期时间EXPIRE key//设置key过期时间不过是时间戳格式，指定什么时间点过期EXPIREAT// 查找所有符合给定模式 pattern 的 key KEYS * 匹配数据库中所有 key 。KEYS h?llo 匹配 hello ， hal

2016-12-14 16:51:16 2050

转载 flume与kafka区别

转自：https://ask.hellobi.com/question/13741， http://www.cnblogs.com/lishouguang/p/4560858.html http://www.open-open.com/lib/view/open1435884136903.html http://www.cnblogs.com/i

2016-12-13 10:46:29 3370

原创 activemq

简介activemq有两种消息模型：队列（Queue）和主题（Topic）1、点对点（point-to-point，简称PTP）Queue消息传递模型：通过该消息传递模型，一个应用程序（即消息生产者）可以向另外一个应用程序（即消息消费者）发送消息。在此传递模型中，消息目的地类型是队列（即Destination接口实现类实例由Session接口实现类实例通过调用其createQueue方法并

2016-12-12 17:04:41 1335

转载 hashcode & equals通俗理解

hashcode是用来查找的如果你学过数据结构就应该知道，在查找和排序这一章有例如内存中有这样的位置 0 1 2 3 4 5 6 7 而我有个类，这个类有个字段叫ID,我要把这个类存放在以上8个位置之一，如果不用hashcode而任意存放，那么当查找时就需要到这八个位置里挨个去找，或者用二分法一类的算法。但如果用hashcode那就会使效率提高很多。我们这个

2016-12-09 16:53:39 904

转载设计模式之单例模式

转自http://devbean.blog.51cto.com/448512/203501/ 所谓单例模式，简单来说，就是在整个应用中保证只有一个类的实例存在。就像是Java Web中的application，也就是提供了一个全局变量，用处相当广泛，比如保存全局数据，实现全局性的操作等。1. 最简单的实现首先，能够想到的最简单的实现是，把类的构造函数写成private的，从而保证别的类不能实例化此

2016-12-01 16:00:12 759

转载设计模式之工厂模式 & 单例模式（并发生成单例）

转自http://segmentfault.com/a/1190000000369620 描述：对象的新建统一由工厂创建，避免客户端直接通过构造方法新建实例；对于创建对象的工厂可以可以使其在整个应用中保持唯一的实例，避免过多的垃圾工厂对象。场景：一个<发送者>可以发送邮件或者短信，为日后扩展发送文件功能，可以定义短信工厂和邮件工厂生产<发送者>，为方便管理，提供一个工厂管理类负责生成工厂实例

2016-12-01 15:55:49 1092

原创多线程之主线程等待多线程

通过CountDownLatch来控制 import java.util.concurrent.CountDownLatch;public class ImportThread extends Thread { private CountDownLatch threadsSignal; public ImportThread(CountDownLatch threadsSignal)

2016-12-01 15:52:29 954

原创如何让一段代码tomcat启动就运行

1. 在 web.xml 里面配置为 listener <listener> <listener-class>com.pandaroid.uniqueonline.UniqueOnlineSessionListener</listener-class></listener>public class UniqueOnlineSessionListener implements Htt

2016-12-01 15:50:53 1596

原创线程池

把一个任务分解成多个任务，而由于任务太多，不能一次并发执行，需把这些任务进行分批处理，用线程池来处理此问题。import org.apache.log4j.Logger;public class TaskStartProcessor implements Runnable{ private static Logger logger = Logger.getLogger(TaskStartPr

2016-12-01 15:48:58 927

原创动态代理

讨论动态代理，首先来讨论一下静态代理，所谓代理就是一个对象的方法总是在另外一个对象中执行，有两种方式来实现代理，一种是继承，另外一种是聚合。如果用继承的话，会导致重复代理太多，通常情况下是使用聚合进行代理。下面一个静态代理例子： Count.java /** * 定义一个账户接口 * * @author Administrator * */ public inter

2016-12-01 15:45:09 833

原创 hadoop RPC

hadoop 启动后，有5个java进程，实际上这是5个RPC server进程，利用了jetty容器。 DataNode和NameNode通过hadoop的FileSystem进行通信。NameNode服务端，DataNode客户端. RPC（远程方法调用）用于进程间通信下面是hadoop的通信过程 (利用动态代理实现)。

2016-12-01 15:40:15 942

原创 xampp wordpress 建站

下载下载xampp xampp-linux-1.8.3-2-installer.run安装给文件授权 chmod 777 xampp-linux-1.8.3-2-installer.run运行./xampp-linux-1.8.3-2-installer.run 测试连接http://localhost点击phpMyAdmin 创建数据库安装wordpressphpmyadmin用户pma安装过

2016-12-01 15:38:24 924

原创反射snippet

Class clazz = entity.getClass();try {Method method = clazz.getDeclaredMethod("setStatus", new Class[]{Boolean.class});method.invoke(entity, true);Method method2 = clazz.getDeclaredMethod("setModifi

2016-12-01 15:34:10 856

原创 spark configuration and monitor

http://spark.apache.org/docs/latest/configuration.html#networking

2016-11-30 16:10:30 857

原创 spark on yarn

启动确保HADOOP_CONF_DIR 或YARN_CONF_DIR 指向相应的目录。有两种启动方式：cluster mode 和 client mode。 cluster mode：./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app

2016-11-30 14:22:04 1041