自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 联邦学习之我见

2019年7月8日,英国信息监管局发表声明说,英国航空公司因为违反《一般数据保护条例》被罚1.8339亿英镑(约合15.8亿元人民币)。伴随着欧盟出台的新法案——《通用数据保护条例》(General Data Protection Regulation, 简称GDPR),数据隐私保护已经成为全世界...

2020-04-30 13:36:31 231 0

原创 机器学习在数据分析中的应用实例

本人文章 http://blog.nsfocus.net/data-analysis-clustering-algorithm/

2019-10-11 13:35:05 421 0

原创 jvm调试参数说明

Trace跟踪参数 -XX:+printGC 可以打印GC的简要信息 [GC 4790K->374K(15872K), 0.0001606 secs] -XX:+PrintGCDetails 打印GC详细信息 -XX:+PrintGCTimeStamps 打印CG发生的时间戳 [GC[Def...

2019-07-23 09:52:59 82 0

原创 ElasticSearch SIEM方案

Host/Network Analysis TimeLine Custom Query Filebeat Dashboard Audit Dashboard Metricbeat Dashboard Machine Learning

2019-07-11 17:24:12 347 1

原创 陌陌风控系统

系统架构 该引擎通过对用户已经采集的并进行预处理的日志进行静态规则的判断,从而输出不符合相关规则的异常数据,达到告警监控的目的。(本次开源版仅包含陌陌业务安全风控系统静态规则引擎中的部分功能) 系统功能 使用步骤 存在缺陷1 数据接入方式为rest接口,但目前只支持内置的数据源访问: cur...

2019-06-20 20:10:28 1549 2

原创 渗透测试信息收集方法

1.网站收集办法

2019-04-23 21:11:10 140 0

原创 洋葱网络流量识别方案

Tor流量检测方案 1.Tor简介 Tor通过连接一系列虚拟隧道从而允许组织和个人通过公共网络共享信息而不会损害隐私。同样,Tor是一种有效的审查规避工具,允许其用户访问其他被阻止的目的地或内容。Tor的用户越多,节点越多,匿名性就越受到保护。Tor网络上的数据包不是采用从源到目的地的直接路由...

2019-04-09 17:20:58 1044 0

原创 Postgresql批量入库方式

需要一次提交批量数据到数据库,采用如下写法在性能上能提高10倍左右! public synchronized static void sendToPG(List<StandardOutput> standList) { System.out....

2019-01-07 18:25:23 912 1

原创 Hbase配置与工具操作类

基础配置 hbase-env.sh export JAVA_HOME=/opt/nsfocus/espc/deps/java export HBASE_CLASSPATH=/opt/nsfocus/espc/conf/hadoop/ hbase-site.xml <configur...

2018-11-26 17:31:24 83 0

原创 Flume Agent应用配置

以下是Flume作为Agent实例,把应用数据发送到hdfs上,实现实时数据转发的功能。 example.conf: A single-node Flume configuration Name the components on this agent a1.sources = r1 a1.sin...

2018-11-26 15:54:07 503 0

原创 SparkStreaming序列化问题处理

经过个把月的摸爬滚打,项目终于在磕磕绊绊中成型了。先来个简介:用python 写了一堆的聚类算法,将线上数据进行聚类分析,找出离群点,建立模型。用这些模型用来检测用户的行为。 bug产生的过程 实时检测部分采用SparkStreaming实现,在使用过程中发现代码启动后一直会包序列化问...

2018-11-23 11:31:26 1067 1

原创 SparkStreaming实时处理应用

import java.util.ArrayList; import java.util.HashMap; import java.util.HashSet; import java.util.Map; import java.util.Set; import org.apache.log4j....

2018-11-14 16:08:10 354 0

原创 flink流处理demo

flink流处理demo import org.apache.flink.api.common.functions.FoldFunction; import org.apache.flink.api.java.functions.KeySelector; import org.apache.fli...

2018-11-14 14:04:56 2053 1

原创 matpltlib 库使用示例二

import pandas as pd import matplotlib.pyplot as plt unrate = pd.read_csv('unrate.csv') unrate['DATE'] = pd.to_datetime(unrate[&#...

2018-10-17 11:31:48 149 0

原创 matpltlib 库使用示例一

import pandas as pd unrate = pd.read_csv('unrate.csv') #print unrate unrate['DATE'] = pd.to_datetime(unrate['DATE'])...

2018-10-17 11:27:32 111 0

原创 Spark Map/MapPair/reduceByKey 使用Demo

package com.; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import o...

2018-10-11 14:58:18 280 0

原创 pandas基本命令

import pandas food_info = pandas.read_csv("food_info.csv") col_names = food_info.columns.tolist() gram_columns = [] for...

2018-09-18 10:08:18 211 0

原创 Numpy 函数使用技巧

import numpy as np data = np.genfromtxt("world_alcohol.txt",delimiter=",") prin...

2018-09-17 09:03:12 84 0

原创 机器学习的感悟

公司项目要用机器学习算法,很好的学习机器学习的机会。。。

2018-09-16 17:11:08 89 0

原创 Flink on Yarn

Flink on Yarn 运行原理 第一种:内存集中管理模式 1.启动flink集群 client端需要配置环境变量: YARN_CONF_DIR HADOOP_CONF_DIR HADOOP_HOME 2 ./bin/yaen-session.sh -n 2 ...

2018-07-13 11:27:54 1151 0

原创 flink入门程序

本文列出了java版的flink基础程序和使用方法,读者可以通过本文开始flink的基础学习,后续会持续更新flink的相关知识 资源 flink-1.4.2-bin-hadoop26-scala_2.11.tgz 解压到linux主机, 执行:sh /root/flink-1.4.2/...

2018-07-12 16:37:50 5177 0

原创 JAVA自定义Annotation

Annotation定义 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import...

2018-07-09 17:39:29 65 0

原创 Hive索引使用

1创建索引: hive> create index 1index_leon on table ipslog(nstimestamp) > as 'org.apache.hadoop.hive.ql.index.compact....

2018-07-05 16:52:24 442 0

原创 Hive Metastore原理及配置

一、Hive存储概念 1、Hive用户接口: 命令行接口(CLI):以命令行的形式输入SQL语句进行数据数据操作 Web界面:通过Web方式进行访问。      Hive的远程服务方式:通过JDBC等方式进行访问。   2、元数据存储  将元数据存储在关系数据库中(MySql、...

2018-07-04 16:32:08 3089 0

原创 JAVA反射基础与应用

import java.lang.reflect.Field; import java.lang.reflect.Method; /** * java反射 * 成员变量 Field * 方法 Method * */ public class T { public static ...

2018-07-03 19:06:21 352 0

原创 docker基础镜像操作实例

dockers基础操作 获取镜像: docker pull alpine 查看镜像: docker images 导出镜像: docker save -o hello.jar hello 载入镜像: docker load<hello.jar 运行一个镜像: dock...

2018-07-02 10:21:12 294 0

原创 Hbase基础操作

hbase查询操作: 登陆: hbase shell 创建表: create_namespace 'ecitem' create "ecitem:ShoppingCart", {NAME =>'i',COMPRESSION...

2018-06-29 10:55:42 148 0

原创 python 基础概念

1.列表: 2.元祖: 3.字典: 4.import 和 from import的区别 5.python模块发布: a>>添加setup.py: from distutils.core import setup setup(name=&q...

2018-06-29 10:48:49 108 0

原创 python 设计断点方式

python设置断点方式: Python的debug有两种方式: 1.在命令行中运行, 2.在脚本当中运行。两种方式都需要使用pdb模块。 方式一:在命令行中运行 $ python -m pdb my_script.py 方式二:脚本中运行 在需要设置断点的地方,插入方法 pdb.s...

2018-06-29 10:40:49 4524 1

原创 JAVA多线程

1.多线程建议使用Runnable不建议使用thread 使用方法: package com.newegg.redis; public class MuliThread { public static long t =0; public static class cha...

2018-06-29 10:39:50 63 0

原创 kafka生产者与消费者

可同时建立多个组进行数据消费,不同组使用不同数据即可。保证集群性能。 设置方法: props.put(“group.id”, “jd-group2”); props.put(“group.id”, “jd-group3”); package com.newegg.e...

2018-06-29 10:37:49 270 0

原创 cassandra基础操作

cassandra查询操作: 登陆: ./cassandra-cli connect localhost/9160; 创建表: create keyspace ShoppingCart with placement_strategy = ‘SimpleStrategy’ and strategy...

2018-06-29 10:36:47 137 0

原创 Redis操作及原理

1.编译make 或者 make install /src下 2.启动 ./redis-server –port 6379 可选项 3../redis-cli shutdown 等待数据写完之后关闭redis 4. ./redis-server ../redis.conf –lo...

2018-06-29 10:35:22 76 0

原创 JAVA 设计模式(全)

1、工厂方法模式(Factory Method) 工厂方法模式分为三种: 1.1、普通工厂模式,就是建立一个工厂类,对实现了同一接口的一些类进行实例的创建。首先看下关系图: package com.designtype.factory.factory1; public class ...

2018-06-29 10:28:18 503 0

原创 JAVA 程序设计原则

1、开闭原则(Open Close Principle) 开闭原则就是说对扩展开放,对修改关闭。在程序需要进行拓展的时候,不能去修改原有的代码,实现一个热插拔的效果。所以一句话概括就是:为了使程序的扩展性好,易于维护和升级。想要达到这样的效果,我们需要使用接口和抽象类,后面的具体设计中我们会提到...

2018-06-29 09:55:50 1101 0

原创 JVM工作原理

JVM启动过程 JVM是java的核心和基础,在java编译器和os平台之间的虚拟处理器。它是一种利用软件方法实现的抽象的计算机基于下层的操作系统和硬件平台,可以在上面执行java的字节码程序。 java编译器面向JVM,生成JVM能理解的代码或字节码文件。Java源文件经编译成字节码程序...

2018-06-28 16:59:08 63 0

原创 Spark内存溢出解决方案

项目背景: flume收集数据后存储在hdfs上,数据定期装在到hive中,前端使用sql通过spark查询数据。flume接入数据后被切分为很多小文件, 具体配置:hdfs.roundValue=4表示4分钟生成一个文件。小文件之间是没有顺序,所以数据在查询的时候就必须排序,每次排序都会耗费...

2018-06-27 17:03:25 2581 0

原创 spark集群原理

设计理念 为了解决Standalone模式下的Master的SPOF,Spark采用了ZooKeeper提供的选举功能。Spark并没有采用ZooKeeper原生的Java API,而是采用了Curator,一个对ZooKeeper进行了封装的框架。采用了Curator后,Spark不用管理与Z...

2018-06-27 14:13:32 456 0

原创 Java调用python工具类

package com.util; import java.io.BufferedReader; import java.io.InputStreamReader; /** * @Author : liyang * Description * @Date : 16:34 2017/12/27 ...

2018-06-27 11:49:26 292 0

原创 spark RDD 原理图

下图为spark数据统计的整个流程:

2018-06-26 18:49:54 120 0

提示
确定要删除当前文章?
取消 删除