我们家没有秃头的基因-CSDN博客

原创如何消除内部威胁检测中依赖于域和特定站点的问题

挑战1）日志规模大，每小时1.2亿-2亿行的速度2）日志来源广泛，恶意活动类型广泛，每个类型的恶意活动可能包含的实体类型广泛、来源广泛，很难使用单一特征来识别恶意活动3）raw log通常是非结构化的自由文本，格式和语义大相径庭，导致检测出异常后的分析存在困难日志解析器日志分析通常有两个步骤：日志解析器将日志条目解析为结构化表单；对生成的日志序列进行异常检测。推荐大家阅读201...

2020-03-25 09:45:03 296

原创内部威胁检测之异常检测算法

前言一般现有的内部威胁检测算法都会被转化为异常检测来做，我个人认为在内部威胁检测领域除了异常检测这一killing part之外，识别攻击动机以及区分异常和攻击也是重点（大型立flag现场：另一篇论文中了，我就写这个），首先这篇文章就对现有的异常检测算法做一个综述。异常检测算法内部威胁检测主要是基于用户的网络、文件、设备、邮件等审计日志构建正常用户行为模型，之后使用包括图、机器学习、集...

2020-03-25 09:21:27 1428

原创 how-to-remove-conference-information-from-the-acm-2017-sigconf-template

after \documentclass[sigconf]{acmart}add\settopmatter{printacmref=false} % Removes citation information below abstract\renewcommand\footnotetextcopyrightpermission[1]{} % removes footnote with c...

2020-01-15 12:50:26 519

原创机器学习笔试面试题——day4

选择题2、我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以A 增加树的深度B 增加学习率 (learning rate)C 减少树的深度D 减少树的数量增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)决策树只有一棵树, 不是随机森林。3、...

2019-07-13 15:43:02 5707

原创机器学习笔试面试题——day3

选择题1、下列方法中，不可以用于特征降维的方法包括A 主成分分析PCAB 线性判别分析LDAC 深度学习SparseAutoEncoderD 矩阵奇异值分解SVD特征降维方法主要有：PCA,SVD,LDA，LLE，IsomapAutoEncoder：AutoEncoder的结构与神经网络的隐含层相同，由输入L1,输出 L2组成，中间则是权重连接。L2可以尽可能的保存L1的信息,通...

2019-07-10 21:55:36 7184

原创机器学习笔试面试题——day2

选择题1、以下不属于影响聚类算法结果的主要因素有（）A 已知类别的样本质量B 分类准则C 特征选取D 模式相似性测度聚类不知道类别2、模式识别中，不属于马式距离较之于欧式距离的优点的是（）A 平移不变性B 尺度不变性C 考虑了模式的分布缺点1）马氏距离的计算是建立在总体样本的基础上的，即同样的样本在不同的总体中距离是不一样的2）要求协方差逆矩阵必须存在（总体样...

2019-07-09 17:00:01 4226

原创机器学习笔试面试题——day1

选择题1、一个二进制源X发出符号集为{-1,1}，经过离散无记忆信道传输，由于信道中噪音的存在，接收端Y收到符号集为{-1,1,0}。已知P(x=-1)=1/4，P(x=1)=3/4，P(y=-1|x=-1)=4/5，P(y=0|x=-1)=1/5，P(y=1|x=1)=3/4，P(y=0|x=1)=1/4，求条件熵H(Y|X)（）A 0.2375B 0.3275C 0.5273D 0...

2019-07-08 17:31:16 2252 1

原创机器学习算法之四——聚类（一）

1 K-means算法介绍聚类是一种无监督学习，简单来说就是把相似的对象划分到同一个簇当中，对给定的数据集，算法首先给出一个初始的划分方法，以后通过反复迭代的方法改变划分，使得每一次改进之后的划分方案都较前一次更好。K-means聚类也称为快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。在数据集中根据一定策略选择K个点作为每...

2019-04-23 15:13:56 635

原创机器学习算法之三——分类（四）

1 SVM基本理论支持向量机SVM（support vector mac），分类的基本思想是利用最大间隔分类，找到空间中的一个超平面，离这个超平面最近的点叫支持向量，点到超平面的距离叫间隔。如果要处理非线性问题，是通过核函数将特征向量映射到高维空间。从而变成线性可分的。1.1几何间隔我们假设超平面的判别式：样本到超平面的几何间隔：，表示权重向量，b表示偏移向量，||...

2019-04-23 14:48:08 1976

原创机器学习算法之三——分类（三）

1 决策树概念决策树是通过一系列的规则进行分类的过程，决策树分为分类树和回归树，分类树是对离散变量进行决策，回归树是对连续变量进行决策。决策树的构造过程实际上是找到具有决定性作用的特征，决定性作用最大的那个作为根节点，然后递归找到次大的，以此类推。一棵决策树的生成过程主要分为以下3个部分: 特征选择：特征选择是从特征集合中找到当前节点的分裂标准，如何选择特征有不同的量...

2019-04-23 10:42:19 685

原创机器学习算法之三——分类（二）

1 朴素贝叶斯介绍我们假设有一个二分类问题，现有一个新的样本点x，我们用贝叶斯决策理论来判断新的样本点应该属于二分类（A,B）的哪一类：如果x属于A类的概率大于属于B类的概率，那么x就属于A类；反之则属于B类。对于多分类ci，那么只需要计算x属于各个分类的概率p，然后找到，其对于的最大概率标签，就是x的分类。那么如何计算每个分类p(ci|x)。没错，就是贝叶斯公式：这里就...

2019-04-23 09:12:45 237

原创机器学习算法之三—分类（一）

1 KNN基本概念 KNN是以近邻为基础的分类器，它不会尝试去构建一个普遍的内部模型，而只是把训练数据的实例简单的存储起来。最终的分类任务只是通过对需要分析或预测的点周围最近邻而完成的。即计算特征值之间的距离来决定，它的思路是：如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分...

2019-04-19 15:54:46 285

原创机器学习算法之二——回归（三）

1 公式推导我们先给定一个线性回归的方程损失函数：要求得最优变量就要使得计算值与实际值的偏差的平方最小随机梯度下降算法对于系数需要通过不断的求偏导求解出当前位置下最优化的数据，公式中的θ会向着梯度下降最快的方向减少，从而推断出θ的最优解。对损失值求导：给定一个下降系数（也可以叫学习率、下降的幅度）2 实例本文中的实例的:求解的最优解上一部分参见https...

2019-04-18 17:31:06 268

原创机器学习之一——基础知识

1 前言学会机器学习不仅要懂得这些算法的理论过程，而且要非常熟悉怎样使用它，什么场合用它，算法的优缺点，以及如何调参等。学好机器学习数学真的很重要哇，高数、矩阵论、线性代数要硬啃，但是个人感觉还是在运用的过程中理解比较重要，融会贯通，毕竟最终我们还是要实际应用嘛2 机器学习的分类-如何寻找合适的算法2.1 分类2.2 选择算法流程1 选进行大类的选择2 进行...

2019-04-18 15:28:05 431

原创机器学习算法之二——回归（二）

逻辑回归实际上是广义的线性回归，p= S(ax+b)，然后根据p与1-p的大小决定因变量的值，这里的函数S就是Sigmoid函数。逻辑回归多用于分类。通过函数S的作用，我们可以将输出的值限制在区间[0， 1]上，p(x)则可以用来表示概率p(y=1|x)，即当一个x发生时，y被分到1那一组的概率。这里通常都需要选择一个阈值，比如，y>0.5，那么x就归到1这一类，反之为0那一类。...

2019-04-17 19:38:11 247

原创机器学习算法之二——回归(一)

1 运行实例机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定d维输入变量x，并且每一个输入的x都有对应的值y，要求对于新来的数据预测它对应的连续的目标值t。下面是一元线性回归的例子，表示截距值，表示回归系数。 ...

2019-04-17 17:48:13 406 2

原创在服务器上跑代码总结（linux命令）持续更新ing

连接服务器ssh username@服务器ip创建删除文件（夹）rm -rf a.py　 # 删除文件rm -rf data # 删除文件夹touch a.py/vim a.py # 创建文件mkdir data # 创建文件夹将本地文件上传到服务器#单个文件scp /home/lmc/a.py(local) username@...

2019-04-16 10:31:59 4702 1

原创深度学习框架：caffe-tensorflow-keras-pytorch

现有的几种深度学习的框架有：caffe，tensorflow，keras，pytorch以及MXNet，Theano等，可能在工业界比较主流的是tensorflow，而由于pytorch比较灵活所以在科研中用的比较多。本文算是对我这两年来使用各大框架的一个总结，仅供参考。大四的时候接触到的深度学习，那时候的毕设题目是基于深度学习的图像处理，我采用CNN处理进行细粒度的图像检索，...

2019-04-15 15:43:07 2184

原创基于图的异常检测算法——概述

正在调研基于图的异常检测算法，先出个概述，后面再慢慢填坑基于图的异常检测给定一个图数据库，找到其中罕见不同于其他数据对象的点/边/子结构静态图的异常检测普通静态图基于结构基于特征：利用图结构来提取特征，比如节点度量、子图中心性基于邻近：量化图中节点的紧密度来识别图中结构的关联性基于社区：定义为找到密集连接的近邻组中跨社区连接的...

2018-09-20 17:16:21 10460 9

原创关系推理

知识图谱知识图谱本质上是语义网络，是一种基于图的数据结构，由节点（“实体”）和边（“关系”）组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图...

2018-09-20 17:03:44 3602

原创图挖掘技术概览

图挖掘技术思维导图图匹配是比较图之间结构相似性的过程近似图匹配在数据图中搜索出与模式图在数据和节点与边属性上匹配的子图，允许噪声和错误，最大公共子图，最小公共超图来衡量两个图之间的相似程度 SUBDUE算法 LAW算法图中关键字查询频繁子图挖掘显著性子图挖掘密集子图挖掘图的聚类图的剖分理论上是NP-hard的，通常研究的都是图的二剖分...

2018-09-20 16:49:26 4713 2

原创 Parameter '***' not found. Available parameters are [0, 1, param1, param2]

mybatis传递多个参数只能用{0}，{1}不能写参数名public String dosearchLog(@Param("startTime") String startTime,@Param("endTime") String endTime)<select id="getLogListByTime" resultType="xxxForm"> select * ...

2018-05-25 10:25:40 1862

原创 ajax实现读取文本文档到jsp页面

如果项目很小，数据量也不大，就不需要用到数据库，这时候就需要用到文本文档了，再用ajax调用文本文档展示。真的是偷懒必备，哈哈哈哈哈首先，在util里写一个写文件的方法：public static void writeLogFile(String path, String context) { OutputStreamWriter writerStream = null; B...

2018-05-18 16:56:07 633

原创用springMVC拦截器实现操作日志管理功能

最近这两周都在做一个日志管理的模块，在别人搭好的spring-springMVC-mybatis框架下实现系统操作日志入库并显示的功能。心路历程：最先想到的是原始办法，用jdbc连接数据库，在每个controller里的每个方法都调用一次插入数据库方法，想想就非常复杂，而且添加一个方法就要再添加一个入库操作，于是放弃了；然后在网上搜日志管理模块，发现很多人都用SpringAOP注解来做，A...

2018-05-18 15:37:13 3633

原创用log4j实现系统日志管理

一般的带管理功能的项目都要有一个日志管理的模块，提供系统审查的功能，最近在SSM的框架下使用log4j写日志文件，实现每天保存一份日志文件。1.log4j的组成Logger：决定输出什么日志信息Appender：指定日志信息输出到什么地方，可以是控制台、日志文件、某台网络设备Layout：指定日志信息的输出格式2.log4j的输出等级Debug<Info<Warn<...

2018-05-18 14:06:53 987

原创 SSSP算法-单源最短路径算法

#include <stdio.h>#include <string.h>#include <math.h>#include <limits>#include <iostream>using namespace std;#include "GraphLite.h"#define VERTEX_CLASS_NAME(na...

2018-05-18 13:47:47 4632

1.PageRank算法介绍PageRank，网页排名算法，是一种根据网页之间相互的超链接计算的技术，Google用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。PageRank通过网络超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票，Google根据投票来源（甚至来源的来源，即链接到A页面的页面）和投票目标的...

2018-05-18 13:41:51 336

原创从HDFS读文件，进行Hash based group by，再写入Hbase

/*** First assignment for Big data systems and big data analysis* @author LMC* @version V2.0* @date: 2018.04.23 */import java.io.*;import java.io.BufferedReader; import java.io.IOException; ...

2018-05-18 13:32:31 493

原创 jdbc连接数据库进行读写操作

用jdbc连接数据库进行读写操作，在需要插入数据的方法里调用即可，最原始也是最好用的方法import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import...

2018-05-18 11:18:55 892

原创 timestamp类型在数据库中自动创建无法显示问题

方法一：在业务逻辑后台转换SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); log.setCreatetime(df.format(System.currentTimeMillis()));方法二：在jsp页面中转换<%@taglib uri="http://java.sun.com/jsp/jstl/fmt...

2018-05-18 11:05:55 899

kafka、storm、flink、apex、spark五种流式大数据系统调研报告

本文主要调研了Apache Kafka、Apache Flink、Apache Storm、Apache Apex和Apache Spark Streaming五种流式大数据系统。主要的工作有：1）通过文献阅读和试用比较了它们的实现原理；2）利用了kafka自带的测试脚本进行了kafka性能测试；3）通过Hibench进行了Flink、Storm和Spark Streaming的比较测试；4）进行了Apex的简单测试；5）对以上流式大数据系统进行了总结分析。

2018-06-21

与上一时间窗口相比，用数据库中找次数变化最大的目标端口、协议的出现次数

2017-07-08

jsp里做饼图，求大神指导怎么做

2017-07-07

jsp实现判断然后改变颜色

2017-07-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

打死也不读博士