自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

herosunly的博客

阿里云天池大赛安全恶意程序检测第一名,科大讯飞比赛第一名,热衷于机器学习算法研究与应用。

  • 博客(28)
  • 资源 (176)
  • 收藏
  • 关注

原创 机器学习之学习路径、学习方法、常用工具、Python、Numpy、pandas、sklearn、Tensorflow、Pytorch、Git入门教学大纲

学习方法核心思想Python基础2.1 Python运行环境(Jupyter Notebook)2.2 编程规范2.3 基本语法2.4 函数式编程2.5 面向对象2.6 文件操作数据处理常用库Numpy数据处理常用库Pandas(DataFrame、Series等)Linux常用命令Git和Github.........................................................

2020-10-09 20:17:28 14587 61

原创 语种识别比赛优秀队伍方案总结

1. 第一名1.1 算法方案解析1.1.1 题目描述1.1.2 数据处理&增强1.1.3 模型方案1.1.3.1 X-vector && FTDNN1.1.3.2 SE-ResNet34+SAP+AM-Softmax1.1.3.3 NAS1.2 结果展示1.2.1 单模型结果1.2.2 模型融合1.2.3 其他尝试1.3 后续优化思路1.4 Q&A2. 第二名2.1 算法方案解析2.1.1 数据准备2.2.2 数据增强2.2.3 数据采样2.2.4 特征提取2.2.5

2020-10-31 14:07:25 11460 17

原创 事件抽取方案总结

1. 方案一1.1 算法方案解析1.1.1 问题描述1.1.2 方案选择1.1.3 方案设计1.1.3.1 系统框架1.1.3.2 触发词提取器1.1.3.3 论元提取器1.1.3.4 属性分类器1.2 方案优化思路1.2.1 触发词提取优化1.2.2 论元提取优化1.2.3 属性分类优化1.2.4 基于标签验证的数据增强1.2.4.1 trigger增强(first+third right(保留预测正确的trigger label))1.2.4.2 role增强1.3 结果

2020-10-28 10:44:23 78700 18

原创 大咖论赛——阿里云天池TOP选手不得不说的那些事儿

  我是安全恶意程序检测的冠军,我和几个大佬一起分享了一些入门比赛和提高比赛成绩的方法, 可点击回放链接学习 ,或者复制https://live.csdn.net/room/broadview2006/tkVYVbSb到浏览器中学习。

2020-10-28 10:30:14 13060 35

原创 2020年1024程序员节,成为CSDN博客专家

文章目录1. 节日礼物2. 和CSDN一起成长2.1 成长伊始2.2 新的问题1. 节日礼物  打开在CSDN的第一篇博客《PAGE_FAULT_IN_NONPAGED_AREA解决》,时间回首到2015年,那时候的初入CSDN的我可曾想到若干年后能成为博客专家呢。五年的时光承载了太多的成长和回忆,但回想下这些年的程序员节,这个酷酷的荣誉是送给自己最好的节日礼物。2. 和CSDN一起成长2.1 成长伊始  在很长的一段时间内,成长的速度极其缓慢,可能还不如一步一步往上爬的蜗牛,只是因为走了太多的

2020-10-24 21:03:17 19523 36

原创 两万文字详解Python正则表达式(语法、验证方法、使用案例、练习题、常见错误)

1. 正则表达式的定义和应用2. 正则表达式验证网站3. 语法4. Python(re模块)案例5. 正则表达式练习题6. 常用正则表达式7. 常见错误

2020-10-21 17:14:24 16607 14

原创 初试所需资料和复习时间安排

文章目录1. 总原则1. 政治2. 英语3. 数学1. 总原则  针对考研初试而言,复习资料的重要性是不言而喻的。好的复习资料必然会使复习的效率事倍功半。  那先谈一下什么样的资料是好的资料呢?原命题组组长或者成员出的书质量会好一些。就拿为什么肖四每年会有很多原题,是因为肖秀荣以前是政治命题组的副组长。强烈不建议使用xx芬的资料,他以前不是学政治出身(半路出家)。而英语资料的话,黄宝书也就是张剑以前也是命题人(不是组长)。具体人名和资料名仅仅是抛砖引玉,希望大家通过自己的努力搜索到更有价值的信息。

2020-10-19 21:29:41 14079 9

原创 真题做题方法总结

  无论是考研、高考还是考公,真题都是及其重要的。因为只有通过真题才能更好的了解命题人的思路。关于如何更好的了解命题人的思路,可参考文章考研思维方式分享 。  有不少同学做纸质版的真题极其随意,顺手就把当时计算出来的答案写到了真题上。如果把真题当成一次性练习,这样做未尝不可。但是真题只有反复的做,不断的琢磨命题人的思路,才会发挥其最大的价值。也就是要把书读厚,再把书读薄。所以正确的操作方法如下所示:  每一次练习的答案一定要写到草稿纸或者笔记本(本子,非电脑)上,而不要写到真题题目后,然后在真题题目后只

2020-10-19 20:59:54 13082 24

原创 英语背单词秘籍

  背单词是大型英语中极为基础但却至关重要的一步。但很多同学都在此步中就踩了坑,比如买了一本厚厚的单词书开始背起,无论是正序版或者是乱序版,最终的结果往往不如人意。一来真正熟悉的可能就是前20%的单词,而来可能只掌握的是单词对应的某个字面意思,但往往考试中可能考到的另外一个意思就会吃亏。要想在背单词上超越其他人,就不能偷懒,必须整理出属于自己的英语单词本。那该怎么去做呢?  为了加深记忆,并且更好的理解单词的语义,还是得在阅读理解中挖掘单词、整理单词,具体步骤是找一个崭新的笔记本(本子),然后把一页用尺子

2020-10-19 20:17:36 11573 10

原创 万文多图之Pycharm的使用图解

文章目录1. 新建项目2. 窗口介绍3. Pycharm设置4. Pycharm菜单中的功能1. 新建项目  Pycharm是根据项目组织的,项目相关的配置文件存放在项目文件夹下的.idea文件夹(隐藏文件夹)中。  新建环境可以通过Virtualenv进行创建,也可以通过Conda进行创建。  下方状态栏如下所示说明Pycharm正在对选定的Python解释器进行索引工作,在这个过程中,Pycharm的自动补全和代码高亮都暂时无效。2. 窗口介绍新建文件File: 空文件Dir

2020-10-19 19:04:35 71127 12

原创 Python代码练习详细讲解(编程规范、算法、压力测试等)

文章目录0. 写在前面的话1. 题目2. 解答0. 写在前面的话  初学者学习Python,最重要的就是刻意练习(技术无他,唯有熟尔)。为了帮助初学的同学检验自己的Python水平,特意出十道代码练习题。练习题涉及到之前讲多的大多数核心知识点,但由于题目有限,可能会遗留部分重要知识,所以希望能把功夫用在平时,不断提升和积累自己的代码能力。虽然将答案附在最后以供参考,但希望一定要自己亲手练习,然后比较自己的代码和我的代码之间的差异之处,差异之处也就是需要提高之处。比如编程规范、算法、压力测试等。(注:此篇

2020-10-16 15:29:38 12740 14

原创 数据分析实例一:Python批量处理excel文件

1.导库2. 批量解压zip文件3. 批量读取excel文件4. 保存汇总数据4.1 第二次读取数据5. 统计总频次和分类统计频次5.1 统计总频次5.2 分类统计频次6. 分类统计6.1 获取相关类别6.2 过滤数据6.3 分类处理6.3.2 添加IP地址对应的位置6.3.3 缩写和拼音映射成汉语7. 分类统计二......

2020-10-16 09:13:15 13889 15

原创 万文多图详解Linux常用命令(持续更新)

文章目录0. windows远程控制Linux的软件1. Linux命令简要说明2. 参数的左手原则3. 文件和目录的基本操作3.1 cd(Change the current directory to dir)3.2 ls(list directory contents)3.3 chmod(change mode)3.4 pwd(print name of current/working directory)3.5 增删改查3.5.1 mkdir(创建目录)3.5.2 touch(创建文件)3.5.3 r

2020-10-14 22:30:41 11511 6

原创 Python文件操作(json、csv、tsv、excel、pickle文件序列化)

1. 文件类型1.1 曾经遇到的坑1.2 文本文件 vs. 二进制文件1.3 Linux file命令2. 文件读写2.1 普通文本文件2.2 json文件2.2.1 原生json库2.2.2 pandas.read_json2.3 csv、tsv等格式文件2.4 excel文件2.5 文件序列化2.6 读取大文件3. 文件路径迭代3.1 os.walk3.2 glob4. 对输入文件名(argv)进行处理5. 文件内容搜索5.1 逐行遍历匹配内容............

2020-10-14 19:42:50 11317 10

原创 两万文字详解Pandas DataFrame(持续更新)

文章目录1. pandas.DataFrame 数据结构1.1 创建DataFrame1.2 DataFrame的基本属性和常用方法1.2.1 基本属性1.2.2 常用方法1.3 选择数据1.3.1 loc1.3.2 iloc1.4 修改数据2. Groupby and Aggregate2.1 聚合操作(aggregate)2.2 GroupBy对象的基本属性2.3 多列进行GroupBy2.4 对GroupBy对象进行迭代2.5 transform和apply和map2.6 filter3. 表格匹

2020-10-13 22:57:58 12347 23

原创 Pandas Series核心点总结

1. Pandas简介2. Pandas数据结构Series2.1 构造和初始化Series2.2 Series的基本属性2.3 选择数据2.4 删除数据2.5 赋值运算2.6 数学运算2.7 类型转换astype2.7 value_counts()2.8 Series转换为DataFrame3. 时间相关操作3.1 将字符串转换成datetime类型3.2 得到年月日3.3 得到起始和最后时间的间隔日4. apply5. 统计值计算5.1 分位数、中位数、均值、峰度、偏度

2020-10-13 19:11:28 18633 6

原创 Numpy核心知识点总结下(持续更新)

5. numpy.array 中的运算5.1 列表生成式 vs. numpy运算5.2 通用函数5.2.1 四则运算5.2.2 三角函数运算5.2.3 指数对数运算5.3 矩阵运算5.4 向量和矩阵的运算6. Numpy 中的聚合操作6.1 sum vs. np.sum6.2 多维度聚合6.3 其他聚合操作7. Numpy中的arg操作8. Numpy中的比较操作和Fancy Indexing9. Numpy中的其他操作9.1 分位数操作9.2 将二进制流表示为整数列表..

2020-10-12 22:38:06 10955 4

原创 Numpy核心知识点总结上

1. numpy.array 基础1.1 Python List vs. Python array vs. Numpy array1.2 初始numpy.array2. 创建 numpy.array2.1 Python range vs. np.arange vs. np.linspace2.2 随机函数2.2.1 np.random.randint2.2.2 np.random.random2.2.3 np.random.normal2.2.4 np.random.seed2.3 其他

2020-10-12 16:58:32 62899 9

原创 Python面向对象

1. 关于类与对象操作的BIFs1.1 打印对象的所有属性2. 面向对象OOP2.1 类的创建与内部结构2.2 类的继承与多态2.3 OOP三大特性总结3. 模块与包

2020-10-11 20:59:41 11090 10

原创 Python函数(结构、返回值、参数、参数传递方式、函数式编程、高阶函数、闭包、装饰器)

文章目录1. 初识Python中的函数1.1 函数的结构1.2 函数的返回1.3 函数的参数1.4 参数传递的处理1.5 变量作用域(L->E->G->B)2. 各种函数2.1 匿名函数lambda2.2 偏函数2.3 高阶函数3. 闭包4. 装饰器1. 初识Python中的函数1.1 函数的结构1.2 函数的返回1.3 函数的参数1.4 参数传递的处理1.5 变量作用域(L->E->G->B)2. 各种函数2.1 匿名函数lambda2.2 偏函数2

2020-10-10 20:25:56 21115 2

原创 Python基本语法(基本语句与函数、基本数据类型、新学错误总结)

文章目录1. Python基本语句和函数1.1 赋值语句1.2 循环与判断1.3 BIFs(内建函数)2. Python数据类型2.1 数值类型1. Python基本语句和函数1.1 赋值语句# 简单赋值a = 100# 多变量赋值a, b, c = 99, 100, 101print(a, b, c)# 变量交换(其他编程语言没有的特性)a, b = b, aprint(a, b)1.2 循环与判断for 迭代循环(此处和其他编程语言不一致)while 条件循环三元表

2020-10-10 08:52:19 24143 6

原创 Python编程规范

文章目录1. Python编程规范2. 检查工具3. 代码布局4. 表达式中的空格5. 命名规则6. 注释1. Python编程规范  编程规范是体现职业素养的一部分,其重要性不言而喻。那我们应该遵循什么样的编程规范呢?  对于Python语言,最常见的规范的PEP 8编程规范。  从谷歌搜索输入栏中,输入Python Code Style,第一个就是PEP 8编程规范:https://www.python.org/dev/peps/pep-0008/,由于篇幅有限,本文只总结了部分最常用的编程规范

2020-10-09 22:40:55 11740 4

原创 Python运行环境详细总结

1. Python运行环境概述2. Jupyter Notebook2.1 安装2.2 基本操作2.3 基本单元cell2.3.1 命令模式的快捷键2.3.2 编辑模式下的两种命令2.4 黑科技操作3. 安装、升级和删除库3.1 pip3.2 conda

2020-10-09 22:12:57 14111 11

原创 学习方法论

  工欲善其事,必先利其器。在开始学习具体知识之前,为了提高学习效率,特意花一些时间来讲讲学习方法。具体方法并不是最重要的,最大的希望能给大家带来一定的启发(抛砖引玉)。  个人的学习习惯是,首先理解关键概念的字面意思,然后再通过后期不断的实践和练习,逐渐加深对概念的理解。举例来说,现在谈到的是学习。对于学习来说,我们最容易想到的就是学而时习之,不亦乐乎。从上句可以看出,学习可以分为学和习,学很容易理解,习指的是不断的实践。我的体会是,在不断的学习和实践中一定要形成自己的理解。  话说回来了,那如何能够

2020-10-09 21:04:46 25688 6

原创 考研复习之记忆方法

  写在前面的话:由于自己从双非院校考上了985学校,所以每年不定期的都要给家人及其朋友介绍自己成功的经验。再加上之前考上研究生后,曾经帮助数十个同学考上了211及其以上院校。但是步入工作以后,由于工作比较忙碌,所以也慢慢淡出了考研这个领域,但帮助别人的热忱之心却一直都在。为了帮助更多的朋友,所以特意将之前的经验整理成博文。遥想当年考研,就跟如今打数据科学比赛一样,时时刻刻都在想着怎么去提高分数,很多个晚上做梦都是考研的知识点,在这种状态下总结了不少独到的方法。本文主要是抛砖引玉,希望自己的经验不仅仅是帮助

2020-10-01 23:30:13 12886 7

原创 考研各科题型分析

  写在前面的话:由于自己从双非院校考上了985学校,所以每年不定期的都要给家人及其朋友介绍自己成功的经验。再加上之前考上研究生后,曾经帮助数十个同学考上了211及其以上院校。但是步入工作以后,由于工作比较忙碌,所以也慢慢淡出了考研这个领域,但帮助别人的热忱之心却一直都在。为了帮助更多的朋友,所以特意将之前的经验整理成博文。遥想当年考研,就跟如今打数据科学比赛一样,时时刻刻都在想着怎么去提高分数,很多个晚上做梦都是考研的知识点,在这种状态下总结了不少独到的方法。本文主要是抛砖引玉,希望自己的经验不仅仅是帮助

2020-10-01 23:05:31 11798 3

原创 考研战略分析

  作为一个爱学习的同学,从小到大一直就有个名校梦。想必很多同学和我一样,高考失利考到一个不入流的学校,所以特别想通过考研来园自己的名校梦。但时光不能倒流,我们只有客观的审视考研,判断考研真正适合自己以后再去考,这样才能有更大的胜算。  研究生的主旋律就是做研究,那如何做研究呢?首先要阅读前人的work,尤其是通过阅读paper来了解该领域的发展情况。然后自己提出并和导师讨论idea,之后再通过理论或者实验进行验证,如果验证成功以后再把科研成果通过某种形式进行发布(如paper、专利等)。所以把考研准备误

2020-10-01 22:02:50 11364 1

原创 考研思维方式分享

  由于自己从双非院校考上了985学校,所以每年不定期的都要给家人及其朋友介绍自己成功的经验。为了帮助更多的朋友,所以特意将经验整理成博文。由于自己研究生毕业已经有些年头,所以具体知识点  ...

2020-10-01 19:07:06 14288 11

加利福尼亚州住房数据集,包括九个特征和一个目标值即房价,总共20640条数据,和sklearn中的california数据集相同

包括了房屋的经度、房屋的纬度、房龄、房间个数、卧室个数、街区内人口、街区内家庭总数、收入、房屋价值,和sklearn中的california数据集相同,可直接通过pandas.read_csv读取即可,适合sklearn无法正常加载的情况下使用,其中加载代码如下 ```python from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_california_housing() ```

2023-01-04

将PDF转换成图片的依赖库文件

将PDF转换成图片的依赖库文件

2022-04-07

考研英语和考研政治答题卡

考研英语和考研政治答题卡,值得考研同学借鉴学习。尤其是考研英语的作文区域是画好了格子,考研政治的大题是空白区域,建议大家可以购买考研专用尺画线。

2022-03-24

哈工大ltp模型文件(3.4.0)

哈工大ltp模型文件(3.4.0)

2022-03-04

台湾清华大学微积分详细笔记

总共31个PDF文件。其中重点并详细介绍了如何高效学习微积分、极限、连续、微分、积分等核心概念。内容详尽,值得深入学习。

2022-03-02

企业网络资产及安全事件分析数据集

包含tcpflow、flow、db、login四个文件夹,tcpflow是记录TCP协议层的数据传输记录,flow日志是http请求中header的数据记录,db日志是记录数据库操作的日志(SQL语句的执行记录),login日志是记录登录结果的日志(包括POP、FTP、SMTP、SMB和数据库的登录记录)。

2022-02-23

MalwareTextDB数据集

MalwareTextDB数据集

2022-02-15

网络空间安全:挑战和机遇

网络空间安全:挑战和机遇,共46页PPT,内容详尽,值得深入学习。

2022-01-19

西安电子数字信号处理(高西全丁美玉第三版)课后答案

西安电子数字信号处理(高西全丁美玉第三版)课后答案,共37页word文档,内容详尽,值得深入学习。

2022-01-19

系统认证风险预测数据集

包括认证时间、用户名、认证ID、操作类型、首次认证方式、IP地址、IP类型、IP威胁级别、地点、客户端类型、浏览器来源、浏览器类型、浏览器版本、操作系统类型、操作系统版本号、设备型号、应用系统编码、应用系统类目、风险标识等信息。

2022-01-19

基于UEBA的用户上网异常行为分析的数据集

基于UEBA的用户上网异常行为分析的数据集

2022-01-18

Autoruns开机启动项管理工具

Autoruns开机启动项管理工具

2022-01-04

2021年NLP面试题

2021年NLP面试题

2021-12-29

Gartner Emerging Technologies: Emergence Cycle AI in Security

Gartner报告,Emerging Technologies: Emergence Cycle AI in Security,2020年10月份出版的内容。

2021-12-02

计算机硬件清晰图(20MB)

计算机硬件清晰图

2021-11-29

使用机器学习和深度学习对PE进行二分类和多分类

通过大量训练数据来训练模型后进行保存,提供了保存后的模型和新数据的预测代码。

2021-08-05

cs231n第一个大作业

cs231n第一个大作业对应的最起始版本

2021-07-21

中文分词文件(共20W个词)

中文分词文件(共20W个词)

2021-06-23

英文单词分割symspellpy库依赖词典

symspellpy是可以进行文本的纠错,也可以将连在一起的字母分割成若干个单词的。根据实践表示该文件还是比较好用的,该文件是它的字典库。具体使用可参考博客https://blog.csdn.net/herosunly/article/details/105513582

2021-05-20

Iowa Liquor Sales 爱荷华州酒销售数据集

该数据集包含有关含酒精饮料的单个容器或容器包装的销售名称,种类,价格,数量和销售地点的信息。

2021-05-08

Transformer PPT

介绍了为什么要引入self-attention、self-attention的基本原理、self-attention的矩阵表示、Multi-head self-attention、 Positional Encoding、seq2seq

2021-04-22

安卓手机运行Python代码的apk文件.zip

安卓手机运行Python代码的apk文件,详细使用流程地址为https://blog.csdn.net/herosunly/article/details/115742190

2021-04-15

Linux安装boost 1.55.0安装包和文档

Linux安装boost 1.55.0安装包和文档

2021-04-14

现代汉语动词表(共2K条)

现代汉语动词表(共2K条)

2021-03-29

VSCode_User_win64_1.54.3

VSCode_User_win64_1.54.3

2021-03-29

CNEWS新闻文档分类数据

CNEWS新闻文档分类数据,其中14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐

2021-03-26

北京市房屋租赁合同(自行成交版)

北京市房屋租赁合同(自行成交版)

2021-03-22

知识图谱构建与实战PPT

知识图谱构建与实战PPT

2021-03-21

系统方法教你找到女朋友

系统方法教你找到女朋友

2021-03-18

.基于大数据的智能安全防御体系建设PDF

.基于大数据的智能安全防御体系建设

2021-03-18

人工智能之信息检索与推荐

人工智能之信息检索与推荐

2021-03-17

AI技术赋能网络内容安全保障研究报告

AI技术赋能网络内容安全保障研究报告

2021-03-17

mixed_corpus_bert_base_model.bin

mixed_corpus_bert_base_model.bin

2021-03-17

股票投资智慧(900页)

包括股票基本知识、股票估值方法、内在价值分析、公司财务分析、行业竞争分析、宏观经济分析等内容,值得深入学习。

2021-03-17

数字图像处理课件(冈萨雷斯第三版)PPT

数字图像处理课件(冈萨雷斯第三版)PPT

2021-03-17

Kafka核心知识点讲解.docx

Kafka核心知识点讲解

2021-03-17

人工智能赋能安全案例集(100多页)

人工智能赋能安全案例集,100多页,内容详尽,值得学习。

2021-03-17

nltk离线下载文件

NLTK离线下载文件,解压后可使用分词、停用词、词性标注和词形还原、wordnet等功能,NLTK安装可参考https://blog.csdn.net/herosunly/article/details/105017811中的0. 如何离线安装NLTK

2021-03-09

nlpcc2013和2014对应数据

nlpcc2013和2014对应数据

2021-03-05

信息安全思维导图集合(共24个图)

包括防御技术、攻击技术、职业发展路径、技能成长等内容。

2021-03-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除