卧龙居

博观约取,厚积薄发

关于机器学习的一点感想

虽然AlphaGO战胜了李世石,让一直不温不火的人工智能和机器学习火了一把,也激起了很多人的研究兴趣。但唱衰机器学习,认为机器学习准确性不高,基于人工定义规则比机器学习自动发现的规则更有效的言论也不少。 个人理解,机器学习在各个领域的探索的时间不长,相关算法如何与实际分析场景相结合的具体路子也不...

2016-08-19 19:52:51

阅读数 1346

评论数 1

软件开发中的葵花宝典(转)

中国人大都喜欢用武侠小说来比较软件开发,但是在实战武功中,只有葵花宝典才是最厉害的,也只有掌握了葵花宝典,才能称为"不败"。 但什么才是软件开发的葵花宝典? 让我们先从一些现象出发。我们的前提是,软件开发是一项智力密集型劳动。对于智力密集型劳动,我们观察到的现象是,个体的表现差...

2011-06-11 17:51:00

阅读数 1064

评论数 0

Siddhi架构及原理

2019-05-16 18:06:25

阅读数 12

评论数 0

目前Spark Application处理的数据量和性能

今年最值得开心的事情,就是Spark Application在客户局点跑的效果。虽然里面涉及的算法由于涉密所以不能透露,但是性能杠杠的还是值得高兴一下的。 每秒钟的数据量大概为40万~80万条。 实时Spark Application的性能(开5分钟的时间窗口): 5分钟内可以处理完...

2018-11-23 09:18:38

阅读数 611

评论数 2

Apache Flink 各类关键数据格式读取/SQL支持

目前事件归并分为两种,一种为实时的归并,即基于Kafka内的数据进行归并和事件生成;一种是周期性的归并,即基于Hive中的数据进行数据的归并和事件生成。 基于SQL归并时Spark Streaming支持的输入/输出数据如下: 数据类型 Flink支持情况 ...

2018-11-02 16:03:22

阅读数 4482

评论数 1

Apache Flink CEP学习总结

1. 简介 Apache Flink是一个计算框架,地位和Spark差不多。里面的API也有与Spark类似的,例如FlinkKafkaConsumer010对应着Spark里的读取Kafka形成流的API,DataStream对应着Spark里的DStream,也有一系列的transform ...

2018-11-02 15:51:06

阅读数 2529

评论数 3

Hadoop Namenode启动报错GC overhead limit exceeded

Hadoop Namenode启动报错: 看起来是fsimage中的节点数目过多,导致的GC Overhead超过限制。Fsimage是namenode维护的重要文件之一,它包含了整个HDFS文件系统的所有目录信息和文件信息。对于文件来说包含了数据块描述信息、修改时间、访问时间等;对于目录来...

2018-09-28 11:24:05

阅读数 436

评论数 0

编译zeppelin

1.单独编译zeppelin-web cd zeppelin-web  mvn clean package -DskipTests 如果中途phantomJS安装报错,手动安装PhantomJS,命令为:npm install  2.回到主目录编译zeppelin mvn package -Ds...

2018-08-21 10:18:38

阅读数 836

评论数 0

oracle和sqlserver记录客户端ip、用户名、sql

1.oracle--建立LOGON_TABLEcreate table LOGON_TABLE asselect sysdate logon_time,sys_context('USERENV','SESSION_USER') username,sys_context('USERENV','IP_...

2018-07-03 13:45:24

阅读数 599

评论数 0

sklearn使用逻辑回归

因为逻辑回归这一章实在毫无新意,而且使用ADFA-LD数据集函数调用都已经数字化了,也对实际工程没有任何帮助。所以仅贴一段示例代码:

2018-06-26 20:29:04

阅读数 195

评论数 0

《web安全之机器学习入门》第7章朴素贝叶斯模型检测webshell

N-gram算法,认为第N个词只与前面的第N-1个词相关。例如对于一个句子,I love my country.那么2-gram得到的词集为:["I love","love my","my country&a...

2018-06-26 20:06:36

阅读数 417

评论数 0

hbase thrift连不上的错误(client.RpcRetryingCaller: Call exception)

现象为:python happybase连接hbase卡死,查看thrift里的日志发现:2018-06-26 15:19:43,192 INFO  [thrift-worker-11] client.RpcRetryingCaller: Call exception, tries=21, ret...

2018-06-26 15:39:06

阅读数 1471

评论数 0

《web安全之机器学习入门》第6章决策树与随机森林算法

决策树识别pop3端口扫描(原书中识别暴力破解,实际上pop3协议的并没有guess_passwd类型的数据,所以改为识别port_sweep.):待分析数据集:KDD-99数据集,链接:http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html...

2018-06-24 16:23:00

阅读数 267

评论数 0

《web安全之机器学习入门》第5章K近邻算法读书笔记【下】

Rootkit是一种特殊的恶意软件,它的功能是在安装目标上隐藏自身及指定的文件、进程和网络连接等信息。待分析数据集:KDD-99数据集,链接:http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html该数据集是从一个模拟的美国空军局域网上采集来的...

2018-06-24 12:23:00

阅读数 152

评论数 0

《web安全之机器学习入门》第5章K近邻算法读书笔记【上】

K近邻算法的思路:如果一个样本在空间上最近的K邻居大多数都属于M类,则该样本属于M类。在本章中,使用K近邻算法识别用户操作序列中的异常命令。分析数据集url:http://www.schonlau.net/数据集说明:50个用户的linux操作日志以User开头的文件为用户命令,总共有50个用户,...

2018-06-24 01:21:18

阅读数 189

评论数 0

关于netcore 53413后门的跟踪

最近听到一种说法是,有gafgyt蠕虫利用netcore的53413的后门,传播得非常厉害。 那么,跟踪一下事实是否属实呢? 1.首先看一下netcore/netis路由的53413后门 这是一个2014年就爆出来的老洞。即netcore/netis路由器会默认监听53413端口(UDP),...

2018-01-23 08:30:22

阅读数 1146

评论数 0

Java版whois信息查询接口

1.whois是什么? 首先明确一点,whois是一种协议,用来查询一个域名是否被注册,以及注册者、注册时间、最后更新时间以及相关信息。 2.怎么查? 不同的域名后缀往往需要像不同的whois服务器发送请求,比如以.jp(日本域名)结尾的域名和.ru(俄罗斯)结尾的域名就需要向不同whois服...

2017-11-24 10:04:38

阅读数 1615

评论数 1

Struts2 S2-052

Struts2 S2-052影响的版本是Struts 2.1.2 - Struts 2.3.33, Struts 2.5 - Struts 2.5.12。 主要是struts2的rest plugin的XStreamHandler存在问题。 所以,我们在复现此漏洞时,需要引入struts2-c...

2017-10-25 13:15:39

阅读数 1243

评论数 0

Struts2 S2-003

Struts2 S2-003影响的版本是低于2.0.12以下的,所以搭建的环境使用低于2.0.12的最近一次版本,2.0.11.2。 环境搭建: 1.项目结构: 2.pom.xml里的配置: 3.web.xml的配置: 4.stru...

2017-10-24 17:18:16

阅读数 1167

评论数 0

pgpool(3.6.5)的一个巨坑

在现场环境中突然发现spark application卡死,而卡死的状态又与普通的阻塞不同,看起来就是执行了一部分job之后,后面的Job都没有提交了。 而更为诡异的是,如果把指向不用pgpool,而直接用一个普通的pg库,整个spark application是正常的。 此时猜测可能问题出在...

2017-09-28 15:29:59

阅读数 761

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭