2019年05月_djph26741

转载大规模异常滥用检测：基于局部敏感哈希算法——来自Uber Engineering的实践

uber全球用户每天会产生500万条行程，保证数据的准确性至关重要。如果所有的数据都得到有效利用，t通过元数据和聚合的数据可以快速检测平台上的滥用行为，如垃圾邮件、虚假账户和付款欺诈等。放大正确的数据信号能使检测更精确，也因此更可靠。为了解决我们和其他系统中的类似挑战，Uber Engineering 和 Databricks 共同向Apache Spark 2.1开发了局部敏...

2019-05-31 15:04:00 324

转载 pyspark minHash LSH 查找相似度

先看看官方文档：MinHash for Jaccard DistanceMinHashis an LSH family for Jaccard distance where input features are sets of natural numbers. Jaccard distance of two sets is defined by the cardinality ...

2019-05-31 15:03:00 962

转载利用Minhash和LSH寻找相似的集合

from:https://www.cnblogs.com/bourneli/archive/2013/04/04/2999767.html问题背景给出N个集合，找到相似的集合对，如何实现呢？直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合，但是时间复杂度是O(n2)。当N比较小时，比如K级，此算法可以在接受的时间范围内完成，但是如果N变大时，比B级，甚至P级...

2019-05-31 14:06:00 117

转载局部敏感哈希算法(Locality Sensitive Hashing)

from：https://www.cnblogs.com/maybe2030/p/4953039.html阅读目录1. 基本思想2. 局部敏感哈希LSH3. 文档相似度计算　　局部敏感哈希(Locality Sensitive Hashing，LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法。局部敏感哈希是近似最近邻搜索...

2019-05-29 11:59:00 531

转载 One Class SVM 对于样本不均衡处理思路——拿出白样本建模，算出outlier，然后用黑去检验效果...

One Class SVM 是指你的training data 只有一类positive （或者negative）的data，而没有另外的一类。在这时，你需要learn的实际上你training data 的boundary。而这时不能使用 maximum margin 了，因为你没有两类的data。所以呢，在这边文章中，“Estimating the support of a ...

2019-05-27 14:56:00 527

转载 spark HMM

Scala实现的：https://github.com/skrusche63/spark-intent/tree/master/src/main/scala/de/kp/scala/hmmhttps://github.com/apache/spark/compare/master...lilrex:sequenceHMM前向算法的spark实现http://f.datag...

2019-05-21 17:21:00 338

转载 wireshark 抓包再利用TCP socket发送包里的payload是可以实现登陆的

用户密码可被批量破解在用户使用手机端登录时，对数据进行抓包分析。多次抓包分析后，可得到几个关键TCP数据包。根据前面逆向编写出的解密算法，使用socket进行数据发包测试：可以模拟APK进行用户登录，并能进行其他操作。如获取设备列表、添加设备、修改设备密码等。分析发现，在用户密码正确和错误时，返回信息时不同的。根据这种不同，可以设计字典对用...

2019-05-21 09:50:00 1141

转载安全日志挖掘分析系统数据源

日志数据源主要包括系统日志、WEB日志、路由器日志等日志，其中，日志类型主要包括以下几个种：secure 日志/var/log/secure，该日志记录了系统每天发生的各种各样的事情，包括那些用户曾经或者正在使用系统，可以通过日志来检查错误发生的原因，更重要的是在系统受到黑客攻击后，日志可以记录下攻击者留下的痕迹。主要应用场景包括口令暴力破解、SSH使用频率最高的TOP ...

2019-05-14 15:32:00 172

转载 LabelEncoder save 离线使用

For me the easiest way was exporting LabelEncoder as.pklfile for each column. You have to export the encoder for each column after using thefit_transform()functionFor examplefrom sklea...

2019-05-14 12:04:00 991

转载 HMM 模型输入数据处理的优雅做法来自实际项目

实际项目我是这样做的：def mining_ue_procedures_behavior(seq, lengths, imsi_list): print("seq 3:", seq[:3], "lengths 3:", lengths[:3]) # model.fit(seq, lengths) fitter = LabelEncoder(...

2019-05-14 10:46:00 328

转载 Python读excel——xlrd

Python读excel——xlrdPython读取Excel表格，相比xlwt来说，xlrd提供的接口比较多，但过程也有几个比较麻烦的问题，比如读取日期、读合并单元格内容。下面先看看基本的操作：图表数据整体思路为，打开文件，选定表格，读取行列内容，读取表格内数据详细代码如下：import xlrdfrom datetime import date,dat...

2019-05-13 17:26:00 135

转载 markdown demo 学习

## <center>2019-05-08 12:05 DDoS攻击检测报告</center> ##- **MME ID**： 1123424- **DDoS攻击类型**：具有合法身份频繁断网入网导致的DDoS- **攻击发生时段**：2019-05-08 12:00~2019-05-08 12:05- **威胁等级**：...

2019-05-09 12:08:00 79

转载 Markdown 语法介绍

Markdown 语法介绍from:https://coding.net/help/doc/project/markdown.html文章内容1Markdown 语法介绍1.1标题1.2锚点1.3引用1.4列表1.5代码1.6强调1.7自动链接1.8表格1.9分割线1.10图片1.11流程...

2019-05-08 20:45:00 77

转载安全学习概览——恶意软件分析、web渗透、漏洞利用和挖掘、内网渗透、IoT安全分析、区块链、黑灰产对抗...

1 基础知识1.1 网络熟悉常见网络协议：https://www.ietf.org/standards/rfcs/1.2 操作系统1.3 编程2 恶意软件分析2.1 分类2.1.1 木马2.1.2 Botnet2.1.3 挖矿2.1.4 勒索软件2.1.5 后门2.1.6 病毒2.1.7 蠕虫2.2 外部资源• VirusTotalhttps://www.virustotal.com/#...

2019-05-05 12:04:00 498

转载诺基亚 IoT安全白皮书

https://onestore.nokia.com/asset/205166转载于:https://www.cnblogs.com/bonelee/p/10811909.html

2019-05-05 11:09:00 142

djph26741的博客