自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1527)
  • 收藏
  • 关注

转载 python3 推荐使用super调用base类方法

from:https://python3-cookbook.readthedocs.io/zh_CN/latest/c08/p07_calling_method_on_parent_class.html8.7 调用父类方法问题你想在子类中调用父类的某个已经被覆盖的方法。解决方案为了调用父类(超类)的一个方法,可以使用super()函数,比如:...

2019-07-12 14:41:00 164

转载 python 私有和保护成员变量如何实现?—— "单下划线 " 开始的成员变量叫做保护变量,意思是只有类实例和子类实例能访问到这些变量;" 双下划线 " 开始的是私有成员,意思是只有类对象自己能访问...

默认情况下,Python中的成员函数和成员变量都是公开的(public),在python中没有类似public,private等关键词来修饰成员函数和成员变量。在python中定义私有变量只需要在变量名或函数名前加上 ”__“两个下划线,那么这个函数或变量就是私有的了。在内部,python使用一种 name mangling 技术,将 __membername替换成 _classname...

2019-07-12 14:36:00 427

转载 【编程开发】Python隐藏属性——使用双下划线标识私有属性,外部不可直接访问...

from:https://zhuanlan.zhihu.com/p/30553607小编在最初使用上Python之后,就一发不可收拾,人生苦短、我用Python,不光是因为其优雅简洁,更是因为它强大的扩展性,特别是一些Python内置的私有属性,熟练地掌握之后使得在开发过程中更灵活、更高效,今天小编就细数一些常用的私有...

2019-07-12 14:35:00 225

转载 spark context stop use with as

调用方法: with session.SparkStreamingSession('CC_Traffic_Realtime', ssc_time_windown) as ss_session: kafkaStreams = ss_session.get_direct_stream(TOPICNAME) kafkaStr...

2019-07-12 14:27:00 160

转载 pyspark读取hdfs 二进制文件

程序如下:from pyspark import SparkConf, SparkContextconf = SparkConf().setAppName("My test App")sc = SparkContext(conf=conf)"""lines = sc.textFile("/tmp/tmp.txt")print lines.count(...

2019-07-11 19:55:00 936

转载 【技术分享】linux各种一句话反弹shell总结——攻击者指定服务端,受害者主机(无公网IP)主动连接攻击者的服务端程序(CC server),开启一个shell交互,就叫反弹shell。...

反弹shell背景:想要搞清楚这个问题,首先要搞清楚什么是反弹,为什么要反弹。假设我们攻击了一台机器,打开了该机器的一个端口,攻击者在自己的机器去连接目标机器(目标ip:目标机器端口),这是比较常规的形式,我们叫做正向连接。远程桌面,web服务,ssh,telnet等等,都是正向连接。那么什么情况下正向连接不太好用了呢?1.某客户机中了你的网马,但是它在局域网内,你...

2019-07-09 11:43:00 1107

转载 知识图谱构建技术初探

自底向上——知识图谱构建技术初探from:https://www.anquanke.com/post/id/149122发布时间:2018-06-28 16:00:40文/阿里安全 染青“The world is not made of strings , but is made of things.” ...

2019-07-08 16:33:00 239

转载 minhash pyspark 源码分析——hash join table是关键

从下面分析可以看出,是先做了hash计算,然后使用hash join table来讲hash值相等的数据合并在一起。然后再使用udf计算距离,最后再filter出满足阈值的数据:参考:https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ml/feature/LSH.scal...

2019-07-08 15:54:00 274

转载 最小哈希 minhash

最小哈希维基百科,自由的百科全书跳到导航跳到搜索在计算机科学领域,最小哈希(或最小哈希式独立排列局部性敏感哈希)方法是一种快速判断两个集合是否相似的技术。这种方法是由Andrei Broder(1997),[1]发明的,最初在AltaVista搜索引擎中用于在搜索结果中检测并消除重复Web页面。[2]它同样也应用于大规模聚类问题,比如通过文档间包...

2019-07-08 14:16:00 571

转载 vim、gvim 在 windows 下中文乱码的终极解决方案

vim、gvim 在 windows 下中文乱码的终极解决方案vim ~/.vimrc 然后加入:" Gvim中文菜单乱码解决方案" 设置文件编码格式set encoding=utf-8set fileencodings=utf-8,chinese,latin-1,gbk,gb18030,gk2312if has("win32")...

2019-07-04 17:47:00 100

转载 AI demo framework

import pickleimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifier from...

2019-07-03 19:11:00 82

转载 spark-submit python egg 解决三方件依赖问题

假设spark里用到了purl这个三方件,https://github.com/ultrabluewolf/p.url,他还额外依赖futures这个三方件(six的话,anaconda2自带)。pyspark 代码如下:from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster(...

2019-07-03 11:40:00 188

转载 怎样制作一个 Python Egg

from:http://liluo.org/blog/2012/08/how-to-create-python-egg/制作打包一个 Python Egg 并部署整个过程还蛮有意思的,下面小教程(这里以制作一个叫作 bee 的 Egg 为例)~制作先创建一个项目文件夹:12$ mkdir bee-egg # 这个名字可以随...

2019-07-03 11:03:00 231

转载 pytest使用

安装:pip install pytestpip install pytest-covutils.py代码def add(a, b): return a+bdef inc(x): return x + 1def func_except(): raise SystemExit(1)  test_utils.py...

2019-07-02 20:31:00 147

转载 [转]Python测试框架对比----unittest, pytest, nose, robot framework对比

测试框架什么是框架?框架(Framework)是整个或部分系统的可重用设计,框架是用来解决代码的组织及运行控制问题的。在我们编写自动化脚本的时候,经常需要读取配置文件,读取数据文件,发送请求,记录日志,连接并对比数据库数据。每个脚本里都重写一遍各种方法不仅工作量大而且易错。所以我们需要把公共的方法提取出来,封装成单独的模块,放到...

2019-07-02 19:36:00 518

转载 163data.com.cn data

163data.com.cn是什么?终于搞清楚了...查看文章163data.com.cn是什么?终于搞清楚了...2008-05-31 00:41一场误会,真TN的无聊的吓人从日志及tcpview上总看到有类如xxx.broad.xw.sh.dynamic.163data.com....

2019-06-28 18:08:00 635

转载 Python工程目录组织

Python工程目录组织from:https://zhuanlan.zhihu.com/p/36221226Python工程目录组织关于如何组织一个较好的Python工程目录结构,已经有一些得到了共识的目录结构。在Stackoverflow的这个问题上,能看到大家对Python目录结构的讨论。这里面说的已经很好了,我也不打算重新造轮子列举...

2019-06-25 21:34:00 109

转载 Spark中Task,Partition,RDD、节点数、Executor数、core数目(线程池)、mem数

Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解from:https://blog.csdn.net/u013013024/article/details/72876427有部分图和语句摘抄别的博客,有些理解是自己的...

2019-06-21 11:07:00 393

转载 非参数估计:核密度估计KDE

非参数估计:核密度估计KDEfrom:http://blog.csdn.net/pipisorry/article/details/53635895核密度估计Kernel Density Estimation(KDE)概述密度估计的问题由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包...

2019-06-19 11:18:00 827

转载 参数检验——当总体分布已知(如总体为正态分布),根据样本数据对总体分布的统计参数进行推断 非参数检验——利用样本数据对总体分布形态等进行推断的方法。...

参数检验(parameter test)全称参数假设检验,是指对参数平均值、方差进行的统计检验。参数检验是推断统计的重要组成部分。当总体分布已知(如总体为正态分布),根据样本数据对总体分布的统计参数进行推断。先由测得的样本数据计算检验统计量,若计算的统计量值落入约定显著性水平a 时的拒绝域内,说明被检参数之间在所约定的显著性水平a 下在统计上有显著性差异;反之, 若计算的统计...

2019-06-19 11:13:00 3447

转载 代码重复检查工具——python的使用CPD比较好用,clone digger针对py2,其他有名的如Simian PMD-CPD CloneDR CCCD CCFinder Bauhaus Code...

代码重复检测:cpd --minimum-tokens 100 --files g:\source\python\ --language python >log.txt输出类似:=====================================================================Found a 381 line (1849 t...

2019-06-18 15:02:00 760

转载 让 Python 代码更易维护的七种武器——代码风格(pylint、Flake8、Isort、Autopep8、Yapf、Black)测试覆盖率(Coverage)CI(JK)...

让 Python 代码更易维护的七种武器2018/09/29 ·基础知识·武器原文出处:Jeff Triplett译文出处:linux中国-Hank Chow检查你的代码的质量,通过这些外部库使其更易维护。可读性很重要。—Python 之禅The Zen of Python,Tim Peters随...

2019-06-18 15:00:00 1166

转载 Alluxio : 开源分布式内存文件系统

Alluxio : 开源分布式内存文件系统Alluxio is a memory speed virtual distributed storage system.Alluxio是一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一。公司简介:由项目的创建者李浩源以及来自UC Berkeley, Google, CMU, Pa...

2019-06-17 19:24:00 385

转载 yarn cluster和yarn client模式区别——yarn-cluster适用于生产环境,结果存HDFS;而yarn-client适用于交互和调试,也就是希望快速地看到application...

Yarn-cluster VS Yarn-client  从广义上讲,yarn-cluster适用于生产环境;而yarn-client适用于交互和调试,也就是希望快速地看到application的输出。  在我们介绍yarn-cluster和yarn-client的深层次的区别之前,我们先明白一个概念:Application Master。在YARN中,每个Application...

2019-06-16 17:39:00 351

转载 Linux 反弹shell(二)反弹shell的本质

Linux 反弹shell(二)反弹shell的本质from:https://xz.aliyun.com/t/25490X00 前言在上一篇文章Linux反弹shell(一)文件描述符与重定向,我们已经讨论过了反弹shell中最核心也是相对较难理解的部分,那么接下来我们就可以正式借反弹shell的实例分析回顾前一篇文章讲的知识,并且也加深对反弹shel...

2019-06-14 10:21:00 212

转载 浅谈摄像头有关的安全问题

转自freebuf一、联网摄像头相关的安全隐患1.1隐私泄露随着物联网进程加快,作为家庭安防设备的智能摄像头正走进千家万户。网上出现公开贩卖破解智能摄像头的教程和软件。同时,有不法分子利用一些智能摄像头存在的安全漏洞,窥视他人家庭隐私生活,录制后在网上公开贩卖。[1]央视截图1.2僵尸网络及DDoS著名的僵尸网络病毒Mirai曾经利用大...

2019-06-10 10:30:00 804

转载 pyspark AttributeError: 'NoneType' object has no attribute 'setCallSite'

pyspark:AttributeError: 'NoneType' object has no attribute 'setCallSite'我草,是pyspark的bug。解决方法:print("Approximately joining on distance smaller than 0.6:") distance_min = mode...

2019-06-04 21:15:00 2818

转载 大规模异常滥用检测:基于局部敏感哈希算法——来自Uber Engineering的实践

uber全球用户每天会产生500万条行程,保证数据的准确性至关重要。如果所有的数据都得到有效利用,t通过元数据和聚合的数据可以快速检测平台上的滥用行为,如垃圾邮件、虚假账户和付款欺诈等。放大正确的数据信号能使检测更精确,也因此更可靠。为了解决我们和其他系统中的类似挑战,Uber Engineering 和 Databricks 共同向Apache Spark 2.1开发了局部敏...

2019-05-31 15:04:00 324

转载 pyspark minHash LSH 查找相似度

先看看官方文档:MinHash for Jaccard DistanceMinHashis an LSH family for Jaccard distance where input features are sets of natural numbers. Jaccard distance of two sets is defined by the cardinality ...

2019-05-31 15:03:00 961

转载 利用Minhash和LSH寻找相似的集合

from:https://www.cnblogs.com/bourneli/archive/2013/04/04/2999767.html问题背景给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。当N比较小时,比如K级,此算法可以在接受的时间范围内完成,但是如果N变大时,比B级,甚至P级...

2019-05-31 14:06:00 117

转载 局部敏感哈希算法(Locality Sensitive Hashing)

from:https://www.cnblogs.com/maybe2030/p/4953039.html阅读目录1. 基本思想2. 局部敏感哈希LSH3. 文档相似度计算  局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法。局部敏感哈希是近似最近邻搜索...

2019-05-29 11:59:00 531

转载 One Class SVM 对于样本不均衡处理思路——拿出白样本建模,算出outlier,然后用黑去检验效果...

One Class SVM 是指你的training data 只有一类positive (或者negative)的data, 而没有另外的一类。在这时,你需要learn的实际上你training data 的boundary。而这时不能使用 maximum margin 了,因为你没有两类的data。 所以呢,在这边文章中,“Estimating the support of a ...

2019-05-27 14:56:00 527

转载 spark HMM

Scala实现的:https://github.com/skrusche63/spark-intent/tree/master/src/main/scala/de/kp/scala/hmmhttps://github.com/apache/spark/compare/master...lilrex:sequenceHMM前向算法的spark实现http://f.datag...

2019-05-21 17:21:00 338

转载 wireshark 抓包再利用TCP socket发送包里的payload是可以实现登陆的

用户密码可被批量破解在用户使用手机端登录时,对数据进行抓包分析。多次抓包分析后,可得到几个关键TCP数据包。根据前面逆向编写出的解密算法,使用socket进行数据发包测试:可以模拟APK进行用户登录,并能进行其他操作。如获取设备列表、添加设备、修改设备密码等。分析发现,在用户密码正确和错误时,返回信息时不同的。根据这种不同,可以设计字典对用...

2019-05-21 09:50:00 1141

转载 安全 日志挖掘 分析系统数据源

日志数据源主要包括系统日志、WEB日志、路由器日志等日志,其中,日志类型主要包括以下几个种:secure 日志/var/log/secure,该日志记录了系统每天发生的各种各样的事情,包括那些用户曾经或者正在使用系统,可以通过日志来检查错误发生的原因,更重要的是在系统受到黑客攻击后,日志可以记录下攻击者留下的痕迹。主要应用场景包括口令暴力破解、SSH使用频率最高的TOP ...

2019-05-14 15:32:00 172

转载 LabelEncoder save 离线使用

For me the easiest way was exporting LabelEncoder as.pklfile for each column. You have to export the encoder for each column after using thefit_transform()functionFor examplefrom sklea...

2019-05-14 12:04:00 991

转载 HMM 模型输入数据处理的优雅做法 来自实际项目

实际项目我是这样做的:def mining_ue_procedures_behavior(seq, lengths, imsi_list): print("seq 3:", seq[:3], "lengths 3:", lengths[:3]) # model.fit(seq, lengths) fitter = LabelEncoder(...

2019-05-14 10:46:00 328

转载 Python读excel——xlrd

Python读excel——xlrdPython读取Excel表格,相比xlwt来说,xlrd提供的接口比较多,但过程也有几个比较麻烦的问题,比如读取日期、读合并单元格内容。下面先看看基本的操作:图表数据整体思路为,打开文件,选定表格,读取行列内容,读取表格内数据详细代码如下:import xlrdfrom datetime import date,dat...

2019-05-13 17:26:00 135

转载 markdown demo 学习

## <center>2019-05-08 12:05 DDoS攻击检测报告</center> ##- **MME ID**: 1123424- **DDoS攻击类型**:具有合法身份频繁断网入网导致的DDoS- **攻击发生时段**:2019-05-08 12:00~2019-05-08 12:05- **威胁等级**:...

2019-05-09 12:08:00 79

转载 Markdown 语法介绍

Markdown 语法介绍from:https://coding.net/help/doc/project/markdown.html文章内容1Markdown 语法介绍1.1标题1.2锚点1.3引用1.4列表1.5代码1.6强调1.7自动链接1.8表格1.9分割线1.10图片1.11流程...

2019-05-08 20:45:00 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除