- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 数据分析 kaggle 天池 竞赛常用函数整理
// 显示数据的缺失程度 def miss_value_table(df): mis_val = df.isnull().sum() mis_val_percent = 100*(mis_val/len(df)) mis_val_t = pd.concat([mis_val,mis_val_percent],axis=1) mis_val_table = mis_v...
2019-02-16 16:45:41 954
原创 Ubuntu18.04开启Mongodb,设置数据库文件路径
参考https://www.cnblogs.com/shileima/p/7823434.html 因为不想创建在根目录data/db,利用虚拟机的共享文件,设置新的路径 如果 sudo service mongod start,出现错误:Failed to start mongod.service: Unit mongod.service not found. 则使用sudo systemct...
2018-12-22 15:47:12 913
原创 特征工程 处理类别类型特征 One-Hot Encoding 和LabelEncoder 区别
LabelEncoder可以将[中国,美国,日本]转化为[0,1,2],但这样会出现一个问题:中国和日本的平均会等于日本。 决策树、随机森林算法等可以直接处理这样的类别类型特征,并且这种方法使用的特征空间很少。 One-Hot Encoding优势很明显,更容易被机器所正确理解,但高维度是个严重的问题,对于类别值多的特征来说更为突出,模型会变得复杂,且可能会影响到准确率,对于这种情况,可以在使用o...
2018-11-24 16:49:46 1739
原创 pandas 查看属性列的重复特性,
#该方法只能用于非数值型属性,如果要判断数值型,可以先暂时转换为str类型 df.describe(include=['O']) unique为不重复的个数,如有值[‘A’,‘B’,‘A’,‘C’]4个值,其unique=3。 devIp,devName等所有值都是重复的,对分析无用,可以去掉。 df=df.drop(['devIp','devName','devFstType','devSn...
2018-10-28 16:03:42 1647
原创 论文笔记- Collection Mechanism and Reduction of IDS Alert
Collection Mechanism and Reduction of IDS Alert AbstractRelated WorkMethodologyTraffic Data Retrieval and Collection Mechanism model (Model 1) Author:Karim Hashim Al-Saedi, Sureswaran Ramadass, Ammar...
2018-10-28 15:00:48 382
原创 Python 将Unix时间戳转化为通用时间(年,天,时,分)。处理Dataframe中的Unix时间戳
import time def time_transform(unix_time): tt = {} #利用字典存储 t = time.gmtime(unix_time)#重要的是这个函数,可获得更多的信息。这里只取其中4个 day = t.tm_mday hour = t.tm_hour min = t.tm_min #这里min...
2018-10-27 15:51:20 1073
原创 论文笔记 A New Alert Correlation Algorithm Based on Attack Graph
A New Alert Correlation Algorithm Based on Attack Graph 基于攻击图的一种新型告警关联算法摘要介绍告警关联基于攻击图的高性能关联定义映射聚合告警依赖性如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTe...
2018-10-25 15:58:23 621
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人