自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

herosunly的博客

阿里云天池大赛安全恶意程序检测第一名,科大讯飞比赛第一名,热衷于机器学习算法研究与应用。

  • 博客(306)
  • 资源 (167)
  • 论坛 (1)
  • 收藏
  • 关注

原创 阿里云安全恶意程序检测冠军经验分享(万字长文)

  最近收到不少收费用户的私信,想要学习我是如何拿到阿里云安全恶意程第一名的优异成绩的经验。大家渴望学习的热情感染了我,所以特意整理了一篇详尽的经验分享博客,希望能对大家有所帮助。文章目录1. 任务描述2. 数据统计分析3. 方案设计3.1 单模型设计3.1.1 传统机器学习3.1.1.1 特征工程3.1.1.2 分类器3.1.2 深度学习3.1.2.1 深度学习模型设计3.1.2.2 深度学习模型训练3.2 模型融合3.3 线上部署4. 总结1. 任务描述  将windows可执行程序在动态沙箱

2021-02-04 19:54:33 43528 81

原创 AI比赛经验分享 - 总目录

文章目录总目录1. 不同方向经验分享1.1 NLP1.2 CV1.3 语音1.4 结构化数据1.4 时序预测1.5 网络安全方向1 6. 推荐与广告2. 工具和提分技巧分享3. 个人比赛体会总目录  欢迎大家来到herosunly的《AI比赛经验分享》,在开始前博主先列出该专栏的学习大纲,从而方便不同方向的同学进行学习。下面蓝字都是传送门,点击进入即可:1. 不同方向经验分享1.1 NLP2019年科大讯飞阿尔茨海默综合症预测 前三名队伍分享 (文本分类)2019年达观杯文本智能信息抽取挑战赛

2020-12-11 13:30:50 42999 58

原创 大咖论赛——阿里云天池TOP选手不得不说的那些事儿

  我是安全恶意程序检测的冠军,我和几个大佬一起分享了一些入门比赛和提高比赛成绩的方法, 可点击回放链接学习 ,或者复制https://live.csdn.net/room/broadview2006/tkVYVbSb到浏览器中学习。

2020-10-28 10:30:14 12122 35

原创 机器学习之Python、Linux、Git、Tensorflow、Pytorch入门教学大纲

学习方法核心思想Python基础2.1 Python运行环境(Jupyter Notebook)2.2 编程规范2.3 基本语法2.4 函数式编程2.5 面向对象2.6 文件操作数据处理常用库Numpy数据处理常用库Pandas(DataFrame、Series等)Linux常用命令Git和Github...

2020-10-09 20:17:28 12592 27

原创 万文多图之搜索引擎使用教程(建议收藏)

大家好,我是herosunly,985院校硕士毕业,现担任算法研究员一职。CSDN博客专家,2020年博客之星TOP。曾获得阿里云天池比赛第一名、科大讯飞比赛第一名、CCF比赛第一名等Top名次,拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。其中经常被同学和同事夸赞的一项能力就是`搜索`,所以今天特意给大家分享搜索引擎使用方法,希望能对大家有所帮助。如果大家觉得有用,请帮忙点赞评论收藏(一键三连),谢谢大家的支持~

2021-10-21 20:42:06 1101 18

原创 TensorFlow版BERT源码详解之self-attention

  self-attetion是BERT中的最为核心的内容之一,虽然TensorFlow版的BERT中的self-attention的原理和论文中是一致的,但是实现代码却有所出入。为了帮助新手快速理解这部分内容,所以通过该篇博客逐行解释具体代码。文章目录1. 函数参数2. 维度变换过程2.1 单个注意力头2.2 多个注意力头3. 代码解析1. 函数参数def attention_layer(from_tensor, to_tensor,

2021-09-05 11:22:49 5814 15

原创 Python Unicode实战

1. 各种编码的简要发展史2. Python Unicode实战2.1 操作单个字符2.1.1 判断单个字符所属类型2.1.2 判断单个字符是否属于中文2.1.3 判断是否是空白符2.1.4 判断是否是控制符2.1.5 是否为标点符号2.2 字符串处理2.2.1 将文本转换成Unicode2.2.2 清理文本中的无效字符2.2.3 清理文本中的重音符号2.2.4 根据标点符号进行分句  首先说明一下,本文代码以Python3版本为主(暂时不考虑和Python2的代码兼容)。

2021-08-27 11:52:50 7498 5

原创 统计学习方法详解之第一章统计方法及监督学习概论

文章目录1. 前言1.1 常见误区1.2 解决方法2. 统计学习的基本概念2.1 统计学习的定义2.2 统计学习的重要特点2.3 统计学习的对象2.4 统计学习的目的3. 统计学习的分类4. 统计学习方法三要素5. 模型评估与模型选择6. 泛化能力7. 生成模型与判别模型1. 前言  本课程主要是对李航老师的《统计学习方法》第二版进行深入的讲解。工欲善其事,必先利其器。所以为了帮助初学者提高学习效率,先简单讲解一下学习的误区和要点。1.1 常见误区  误区一:在学习过程中总想达到面面俱到,也就是必须

2021-08-08 16:55:30 1571 12

原创 使用机器学习和深度学习对PE进行二分类和多分类

1. 前言2. 安装库2.1 安装lief2.2 安装ember3. 数据预处理4. 训练模型5. 预测新数据5.1 二分类预测5.2 多分类预测6. 代码下载1. 前言  根据调研发现sophos-ai分享了两千万的PE数据集,链接为https://github.com/sophos-ai/SOREL-20M。由于数据量规模大,所以就可以拿来训练较为有效的模型,不仅可以做对PE进行正常或者恶意的二分类,而且还可以进行更小粒度的恶意分类(如木马、蠕虫、勒索病毒等等)。

2021-08-05 17:16:54 10081 12

原创 Leetcode快速入门之第七节课: 节省时空复杂度的巧妙技巧

1. 节省空间复杂度1.1 负数的巧妙应用2. 节省时间复杂度2.1 快慢指针1. 节省空间复杂度1.1 负数的巧妙应用  剑指offer第三题:找出数组中重复的数字。具体要求如下:  在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。

2021-07-28 22:19:23 1936 8

原创 NLP经典模型复现之开宗明义

文章目录1. 为什么要写这个专栏2. 专栏的主要内容3. 阅读论文的正确姿势1. 为什么要写这个专栏  大家好,我是herosunly,从985院校硕士毕业,现担任算法研究员一职。CSDN博客专家,2020年博客之星TOP。曾获得阿里云天池比赛第一名等Top名次,拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。  7月初写了一篇保姆级人工智能学习成长路径,得到了读者的广泛好评。但不少读者觉得意犹未尽,希望能出更加详尽的课程,比如如何能够

2021-07-28 11:24:47 3760 11

原创 一文掌握Git和GitHub的使用

1. 什么是Git和GitHub?2. 安装Git和GitHub2.1 安装GitHub2.2 安装Git3. Git初尝试3.1 总结3.2 练习4. Git重要特性4.1 帮助、日志和比较4.2 忽略文件4.3 总结4.4 练习5. 分支5.1 总结5.2 练习6. GitHub6.1 Markdown6.2 Pull Requess6.3 Pages6.4 Forking6.5 总结6.6 练习

2021-07-14 16:46:54 4410 8

原创 Leetcode快速入门之第六节课: 利用栈和队列实现树的遍历(前序、中序、后序、层次)

文章目录1. 前言2. 树的深度优先搜索2.1 前序遍历2.2 中序遍历2.3 后序遍历1. 前言  和几个算法交流群的朋友交流,发现面试中经常考察非递归遍历树。具体来说即为以下四种遍历方式:前序遍历中序遍历后序遍历层次遍历  甚为悲惨的是,其中一位朋友因为没有答上而被面试官叫停了面试。所以为了帮助大家拿到满意的offer,所以特意写下了该篇博客。2. 树的深度优先搜索  利用栈模拟递归是实现非递归方式遍历树的核心方法之一。那该如何进行实现呢?首先要明确栈的特点是:先进后出。栈里面存放

2021-07-08 07:53:10 10298 38

原创 Linux文本处理神器awk实战案例

1. 什么是awk2. 打印不同列的内容3. 打印行号和列号4. 修改输入和输出分隔符5. 输入多个文件6. 修改某一列的值7. 条件筛选后打印8. 运算9. 正则表达式

2021-07-03 14:36:24 16597 58

原创 保姆级人工智能学习成长路径

文章目录0. 前言1. 第一阶段:编程语言学习2. 第二阶段:机器学习基本理论3. 第三阶段:深度学习理论与实战4. 第四阶段:细分领域深入学习5. 第五阶段:集大成者0. 前言  最近有很多小伙伴想学习人工智能,其中不少同学渴望从事相关职业。虽然网上的资料很多,但是很多内容不够接地气,导致他们看不懂,所以很迷茫,不知何去何从。作为获得AI比赛Top名次的老司机,就给大家讲讲如何系统学习人工智能,最终达到一名合格的算法工程师。希望大家能够跟随我一步步迈进人工智能的殿堂,一起冲鸭~~~  先简单说一下

2021-07-02 07:32:29 14209 50

原创 Leetcode快速入门之第五节课: 使用多指针+区间法解决链表问题

文章目录1. 问题引入2. 链表基础概念3. Leetcode实战之删除元素3.1 Leetcode 83题:删除链表中的重复元素3.2 Leetcode 82题:删除链表中的重复元素II1. 问题引入  之前在第二节课我们讲解了使用双指针解决数组问题。自己一直比较推崇的是学习方法之一是举一反三,那不禁就有人要问,那能否用来解决其他问题呢?比如与数组并驾齐驱的链表呢。答案是同样好用!  那么问题来了,如何使用双指针(多指针)来攻克Leetcode中的链表题目呢?2. 链表基础概念  在链表中,我

2021-06-30 20:24:12 16938 20

原创 Leetcode快速入门之第四节课: 区间法边界值分析

1. 区间法核心思想介绍最近有好几个付费读者表示,课程内容基本上学会了,但是区间边界值如何正确设置成为了一个难题。为了帮助同学们在学习初期早点避开同样的大坑,所以特意加上了这节内容。如果同学们有其他问题,也欢迎在评论区留言。咱们先来回忆一下区间法。在开始之前,首先应当确定问题可以通过区间法来解决。具体来说,要把原有数据划分成若干个区间。每个区间是相互独立的,而区间内的数据满足一定的共性。使用区间法解决问题的步骤为:一、确立正确区间,二、设置好区间的初始值,三、确定循环执行的条件(或者终止条件),四

2021-06-25 13:50:10 15951 13

原创 Leetcode快速入门之第三节课: 分治算法

如果大家认真学习了上节课的内容,自行编码完成了课程中的题目,那么恭喜你已经迈出了坚实的一步。如果没有自行编码完成作业,只是看了几遍文章,请一定要自行练习,否则收效甚微。话不多说,咱们继续今天的课程。拆分+组合是解决问题常用的思维方式。上节课的双指针+区间法主要是通过循环体现了拆分和组合。其中循环中的每一轮体现了拆分后的每个子问题,而组合已经被包含在循环中了。那么是否有不通过循环来拆分问题的算法呢?答案就是咱们今天要学习的分治算法。那么分治算法究竟是

2021-06-19 11:25:07 15663 15

原创 Leetcode快速入门之第二节课: 使用双指针+区间法解决数组问题

文章目录1. 问题引入2. 问题分析3. 双指针+区间法 引入1. 问题引入  在学习Leetcode中,最忌讳的学习方法是:东一榔头西一棒槌。具体来说,就是今天做一道数组的题,明天做一道链表的题,后天再做一道二叉树的题目。如此一来,就把学习变成了纯粹了题海战术。而最有效的方法是通过归纳和分类,逐一攻克每个子类别。这是因为,在逐一攻克每个子类别的过程中,必然会深入思考一类题目的共同点,所以就更容易学到其中的精髓之处。  今天咱们要学习的内容使用双指针+区间法解决数组问题,在开始之前,先把题目链接列举一

2021-06-15 20:19:09 14814 18

原创 十年自学编程成才(编程小白必看)

文章目录1. 前言2. 十年自学编程成才2.1 为什么每个人都是匆匆忙忙的?2.2 十年时间学习编程(刻意练习)2.3 程序员成功之路3. 扬帆起航1. 前言  我是herosunly,从985院校硕士毕业,现担任算法研究员一职。CSDN博客专家,2020年博客之星TOP。曾获得阿里云天池比赛第一名等Top名次,拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。  最近有几个初入编程的同学咨询我如何学好编程。其中和有个同学的对话,让我对新

2021-06-11 17:37:46 26427 39

原创 Leetcode快速入门之开宗明义: 掌握概念和学习语法

文章目录1. 为什么要学习基本概念2. 学习编程语法1. 为什么要学习基本概念  回顾自己的学习经历,由于目标是能在考试中考到高分,而在我的心目中要实现这个目标,就必须做大量的习题。所以在很长的一段时间内,我的学习任务就是做题做题再做题,但成绩都是左右摇摆,并没有大的起色。如果用机器学习理论来说,那就是产生了过拟合现象。具体来说,就是把练习题(训练数据)都做对了,但是遇到新题目(测试数据)却往往表现不佳。  那如何加深对知识的理解,从而避免过拟合现象呢?对于个人而言,最有说服力的是荣获国内AI竞赛的

2021-06-09 20:54:37 12766 13

原创 2021年全球人工智能技术创新大赛 小布助手对话短文本语义匹配优秀队伍分享

文章目录1. 赛题背景2. 赛题数据介绍和评测标准3. 整体方案设计4. 子模块与创新点4.1 未登陆词优化4.2 MLM预训练优化4.2.1 Mask策略4.2.2 对抗训练4.2.3 参数设置4.3 K-fold 分类模型finetune4.4 构建soft-label4.5 构建大模型+全量数据训练模型4.6 模型集成4.7 性能优化5. 算法落地5.1 快速迭代5.2 算法性能5.3 算法鲁棒性6. 方案总结6.1 创新性6.2 实用性6.3 扩展性6.4 总结6.5 展望1. 赛题背景  本次

2021-06-08 17:41:52 13225 15

原创 新手学Python之学习官网教程(十六: Appendix和版本兼容)

1. 前言2. 附录2.1 交互模式2.1.1 错误处理2.1.2 可执行的Python脚本2.1.3 交互式启动文件2.1.4 定制模块3. Python3和Python2的版本兼容3.1 absolute_import3.2 除法3.3 print函数  为了方便大家对照学习,所以先附上本节课对应的官网链接:https://docs.python.org/3.6/tutorial/appendix.html。本节课是官网教程的最后一章,恭喜大家学习完官网教程。

2021-06-04 12:56:16 10590 16

原创 新手学Python之学习官网教程(十五: Floating Point Arithmetic: Issues and Limitations)

https://docs.python.org/3.6/tutorial/floatingpoint.html浮点数在计算机硬件中表示为以 2 为基数(二进制)的小数。举例而言,十进制的小数0.125等于 1/10 + 2/100 + 5/1000 ,同理,二进制的小数0.001等于0/2 + 0/4 + 1/8。这两个小数具有相同的值,唯一真正的区别是第一个是以 10 为基数的小数表示法,第二个则是 2 为基数。不幸的是,大多数的十进制小数都不能精确地表示为二进制小数。这导致在大多数情况下

2021-06-04 12:51:05 10516 11

原创 新手学Python之学习官网教程(十四: Interactive Input Editing and History Substitution)

交互式编辑和编辑历史某些版本的 Python 解释器支持编辑当前输入行和编辑历史记录,类似 Korn shell 和 GNU Bash shell 的功能 。这个功能使用了 GNU Readline 来实现,一个支持多种编辑方式的库。这个库有它自己的文档,在这里我们就不重复说明了。14.1. Tab 补全和编辑历史在解释器启动的时候,补全变量和模块名的功能将 自动打开,以便在按下 Tab 键的时候调用补全函数。它会查看 Python 语句名称,当前局部变量和可用的模块名称。处理像 string.a.

2021-06-04 10:34:05 10812 9

原创 新手学Python之学习官网教程(十三: What Now)

文章目录1. 前言2. 其他参考资料3. 其他常用库补充3.1 组合1. 前言  为了方便大家对照学习,所以先附上本节课对应的官网链接:https://docs.python.org/3.6/tutorial/whatnow.html。本节课是所有章节中内容最少的,重点讲解了学习Python的文档和资源,希望能对大家深入学习有所帮助~

2021-06-03 13:39:45 11347 25

原创 新手学Python之学习官网教程(十二: Virtual Environments and Packages)

https://docs.python.org/3.6/tutorial/venv.html12.1. 概述Python应用程序通常会使用不在标准库内的软件包和模块。应用程序有时需要特定版本的库,因为应用程序可能需要修复特定的错误,或者可以使用库的过时版本的接口编写应用程序。这意味着一个Python安装可能无法满足每个应用程序的要求。如果应用程序A需要特定模块的1.0版本但应用程序B需要2.0版本,则需求存在冲突,安装版本1.0或2.0将导致某一个应用程序无法运行。这个问题的解决方案是创建一个 vi

2021-06-01 12:57:02 10230 19

原创 新手学Python之学习官网教程(十一: Part II of the Standard Library)

1. 前言2. 更多的标准库2.1 格式化输出2.2 模板2.3 使用二进制数据记录格式2.4 多线程2.5. 日志2.6 弱引用2.7 操作列表2.8 十进制浮点运算1. 前言  为了方便大家对照学习,所以先附上本节课对应的官网链接:https://docs.python.org/3.6/tutorial/stdlib2.html。上节课介绍了很多非常实用的Python标准库,但是Python标准库的品类可谓是琳琅满目数不胜数,所以这节课继续进行介绍。

2021-05-30 11:37:28 6431 17

原创 MNIST读取出错RuntimeError: Dataset not found or corrupted. You can use download=True to download it 解决方案

文章目录1. 前言2. 下载数据3. 修改代码3.1 修改逻辑3.2 代码使用3.3 附录:mnist.py完整代码1. 前言  Pytorch官网教程中,第一个程序是使用简单神经网络对Fashion MNIST数据进行学习和预测,而机器学习/深度学习的处理流程的第一步是:读取数据。代码如下所示:import torchfrom torch import nnfrom torch.utils.data import DataLoaderfrom torchvision import datase

2021-05-28 17:10:58 9712 18

原创 新手学Python之学习官网教程(十: Brief Tour of the Standard Library)

https://docs.python.org/3.6/tutorial/stdlib.html10.1. 操作系统接口os模块提供了许多与操作系统交互的函数:>>> import os>>> os.getcwd() # Return the current working directory'C:\\Python36'>>> os.chdir('/server/accesslogs') # Change current wor

2021-05-28 08:14:43 10101 6

原创 新手学Python之学习官网教程(九: Classes)

@[toc]# 1. 前言  为了方便大家对照学习,所以先附上本节课对应的官网链接:[https://docs.python.org/3.6/tutorial/classes.html](https://docs.python.org/3.6/tutorial/classes.html)  类是将数据和操作聚合到一起的一种方法。创建一个新类意味着创建一种新的类型,从而允许创建该类型的实例。每个类的实例可以拥有保存状态的属性。一个类的实例也可以包含改变状态的方

2021-05-27 21:07:33 10060 18

原创 新手学Python之学习官网教程(八:Errors and Exceptions)

https://docs.python.org/3.6/tutorial/errors.html虽然之前没有系统讲解过错误信息,但是如果认真进行过代码实践,则必然不时会产生一些错误信息。至少有两种显著的错误:语法错误和异常。8.1. Syntax Errors¶语法错误,也称作是解析错误,往往是初学者最容易犯的错误。>>>>>> while True print('Hello world') File "<stdin>", line 1

2021-05-24 21:18:07 10039 28

原创 新手学Python之学习官网教程(七: Input and Output)

有很多方式来表示程序的输出;数据可以被打印成人们可读的形式,也可以作为输出写入到文件中。这一章将详细讨论程序的输入和输出。7.1. 更优雅的输出格式如今我们已经学到了两种输出值的方法:表达式语句和print()函数(第三种方法是使用文件对象的write()方法;标准输出文件指的是sys.stdout。)。通常,我们希望产生比对值进行空格分隔更加复杂的输出格式。有两种方法来格式化输出;第一种是自主处理所有的字符串;比如使用字符串切片和合并操作来构建设想。字符串类型对象包含一些实用的方法,例如填充字符串到

2021-05-21 22:40:34 10047 25

原创 玩是学编程的最好方式(上)

上周末晚上好朋友找我聊天,说他最近在学习Python,但却总处于两天打渔三天晒网的状态。他很想学好,可是学习效率低下、事倍功半,但却不知道问题出在哪里?所以向我请教学习编程之法。看到好朋友有如此学习上进之心,我也备受鼓舞,下定决心要帮他排忧解难。但说来容易,做起来难。一时之间,我也不知道如何下手。说一千道一万,首先应当对现有问题有个定义,然后再对症下药。可问题的症结究竟在哪里呢?是学习不够用心、不够专注?还是好朋友不适合学习Python?心中提出了无数个设想,但却总觉得没有get到问题的本质?那问题的本质

2021-05-21 08:27:23 41995 103

原创 新手学Python之学习官网教程(六: Modules)

文章目录1. 前言2. 模块2.1 更多有关模块的内容2.1.1 Executing modules as scripts1. 前言  为了方便大家对照学习,所以先附上本节课对应的官网链接:https://docs.python.org/3.6/tutorial/modules.html  随着大家深入学习,就会学习到面向对象的编程思维。面向对象的思想主要体现在三个基本特征:封装、继承、多态。其中封装,就是按照模块化的思想,将对象抽象成属性和方法的类,从而将复杂的实现逻辑隐藏起来,而只暴露调用的接口。

2021-05-19 00:30:28 11363 30

原创 新手学Python之学习官网教程(五: Data Structures)

文章目录1. 前言2. 数据结构2.1. 列表1. 前言  为了方便大家对照学习,所以先附上本节课对应的官网链接:https://docs.python.org/3.6/tutorial/datastructures.html。  获得图灵奖的Pascal之父:Nicklaus Wirth曾经提出了个著名公式:数据结构+算法=程序。而上节课 重点讲解了算法的基本组成单元:流程控制(控制流)。这节课将重点讲解数据结构的内容。2. 数据结构  本节课将详细介绍各种常用的数据结构:2.1. 列表下

2021-05-16 16:25:40 10206 14

原创 新手学Python之学习官网教程(四: More Control Flow Tools)

1. 前言2. 编程语言 vs 自然语言3. 控制语句3.1 if语句3.2. for语句3.3. range() 函数3.4 break、continue、循环中的else语句3.5 pass语句3.6 定义函数3.7 更多函数的定义3.7.0 位置参数3.7.1 默认参数3.7.2 关键字参数3.7.3 可变参数列表3.7.4 解包关键字列表3.7.5 匿名表达式3.7.6 文档字符串3.7.7 函数注释3.8 间奏曲:编程风格4. 循环代码的深入理解

2021-05-12 17:02:19 10888 30

原创 编程思维之与人类语言的思维差异(新手必看)

  有很多小伙伴是初次接触编程,或者是刚接触编程不久,很容易遇到各种各样的问题,最简单的比如是环境无法正确安装,也有遇到一些非常棘手的问题,比如老师上课的代码正确运行,但自己一写代码就出错。不少同学由此就从入门走向放弃。但也有同学在坚持学习,努力迈过这道难关。这是为什么呢?很大程度上是由于编程语言和人类语言(学名叫做自然语言)之间存在着很大的思维差异。  为了帮助大家理解,先举个栗子,老婆对老公发信息说:下班买几个苹果回来,如果看到西瓜,就买一个回来。不知道大家看到这句话会是怎么样的理解?那我来说说几个

2021-05-10 15:11:02 13271 51

原创 cp命令太慢?竟然存在更快的命令!

文章目录1. 前言2. 命令一: cp3. 命令二:tar4. 命令三:rsync5. 命令四:cpio6. 结论1. 前言  在Linux环境下进行文件复制,通常就是用cp命令。对于绝大多数人来说,由于它的通用性,该命令已经倒背如流。近来工作要频繁对文件进行复制,然后再进行处理。可不幸的是,常用的cp命令用起来却是好慢好慢。  为了提高效率,便打开谷歌搜索,寻找更好的解决方案。经过调研,得到了其余几个复制的命令,为了帮助大家,特意将命令分享如下(如果不想了解过程的,想直接看结论的同学可以直接翻到文

2021-05-08 11:03:25 10922 61

原创 应用在生物医学领域中的NLP预训练语言模型(PubMedBERT)

  新冠凸显了全球科学家面临的一个长期问题:我们如何与最新的科学知识保持同步?自病情发生以来的短短几个月内,学者就新冠和SARS病毒发表了成千上万的研究论文。这种爆炸性的增长激发了新冠开放研究数据集的创建,以促进研究和发现。但是,新冠大流行只是在医学界普遍挑战中的一个明显例子。PubMed是生物医学研究论文的标准存储库,每天增加4,000篇新论文,每年增加一百万篇。  仅靠人工就不可能跟踪如此迅速的进展。在大数据和精密医学时代,推进自然语言处理发展的紧迫性比以往任何时候都高,NLP可以帮助研究人员快速识别

2021-04-28 11:04:19 12399 8

恶意程序在cuckoo沙箱中产生的Windows API序列数据集

将恶意程序在cuckoo沙箱中模拟运行得到Windows系统的API序列。可以使用机器学习算法来对不同的恶意程序进行划分(分类)。

2021-01-05

CCKS2019-IPRE(人物关系抽取)任务数据集

数据分为三大部分,即训练集、验证集、测试集。数据分为两种颗粒度,一种是句子级别的关系和包(若干个句子)级别的关系。以及用于训练词向量和语言模型的大规模无标注语料。

2020-12-31

twitter爬取代码

twitter爬取代码,解压地址和使用教程在博客https://blog.csdn.net/herosunly/article/details/114262089中。

2021-03-01

基于人工智能的僵尸网络C&C主机检测

基于人工智能的僵尸网络C&C主机检测,内容丰富,值得学习~

2019-04-26

文本数据增强方法(EDA和回译)代码

文本数据增强方法(EDA和回译)代码,解压密码在https://blog.csdn.net/herosunly/article/details/113997077中。

2021-02-25

西瓜数据集(周志华西瓜书中的4个数据集)

包括了西瓜数据集2.0、西瓜数据集3.0、西瓜数据集4.0以及缺失的3.0数据。文件格式为csv,使用pandas.read_csv即可轻松读取。

2021-01-05

李宏毅 BERT PPT

介绍了基于上下文的词嵌入、ELMO、BERT的结构、训练方法、应用场景、GPT等内容。适合初学者进行学习

2021-01-05

英文单词分割symspellpy库依赖词典

symspellpy是可以进行文本的纠错,也可以将连在一起的字母分割成若干个单词的。根据实践表示该文件还是比较好用的,该文件是它的字典库。具体使用可参考博客https://blog.csdn.net/herosunly/article/details/105513582

2021-05-20

word2vec在PyTorch中的实现代码及其数据(加密版本)

解压密码在https://blog.csdn.net/herosunly/article/details/89481947最后。非加密版本下载地址为https://download.csdn.net/download/herosunly/15450078。

2021-02-24

医学类词汇词典汇总(共1W8千条)

医学类词汇词典汇总(共1W8千条)

2021-03-05

Encoder-Decoder网络上.pptx

Encoder-Decoder的经典模型介绍,尤其讲述了为什么要采用Encoder和Decoder两步结构,而不是直接使用单步模型,以及重点讲述了RNN、LSTM的演进过程。

2019-12-13

2020年招商银行FinTech比赛数据

2020年招商银行FinTech比赛数据,包括训练数据集、评分数据集、数据说明、赛题说明等文件。对银行风控感兴趣的朋友可以下载学习。

2020-12-03

使用GPU对C语言代码进行加速_c语言代码大全和详细解释

使用GPU对C语言代码进行加速,其中以规则匹配为例,优化后的方法为:特征规则使用acbm算法编译成一个ptree、ptree匹配使用cuda编程在GPU运行、多个packet并发匹配,处理速度提升数倍。

2020-12-07

jieba分词的自定义词典文档 完整版

jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。

2020-12-08

Adobe Acrobat XI Pro 11补丁

Adobe Acrobat XI Pro 11补丁,解压后替换原有的amtlib.dll文件即可使用。Adobe Acrobat能够对PDF进行编辑,这一点非常方便。

2021-01-05

北京市房屋租赁合同(自行成交版)

北京市房屋租赁合同(自行成交版)

2021-03-22

常用停用词(哈工大停用词表、百度停用词表、四川大学停用词表、中文停用词表)

包括哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库、中文停用词表,适合于文本预处理阶段使用。

2020-12-22

基于语义的恶意代码行为特征提取及检测方法

基于语义的恶意代码行为特征提取及检测方法,内容丰富,值得学习。

2019-06-05

股票投资智慧(900页)

包括股票基本知识、股票估值方法、内在价值分析、公司财务分析、行业竞争分析、宏观经济分析等内容,值得深入学习。

2021-03-17

QQ 0x000000c并且打不开网页的解决方案

当QQ出现0x000000c并且打不开网页,可以尝试删除HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\WinSock2,然后解压后导入该文件,重启就可以。(一定别忘了解压)。

2020-11-27

Transformer PPT

介绍了为什么要引入self-attention、self-attention的基本原理、self-attention的矩阵表示、Multi-head self-attention、 Positional Encoding、seq2seq

2021-04-22

阿里云神龙架构.ppt

PPT包括神龙是什么、虚拟机vs物理机、云计算的历史性难题、神龙硬件体系、神龙软件体系、一代、二代、三代神龙、AWS nitro

2020-12-07

域名白名单数据(包括alexa、umbrella等源)

域名白名单数据(包括alexa、umbrella等四个源的白名单数据)。如果想要降低误报,可取部分源排名靠前的数据以及不同源之间的交集数据。其中部分alexa和umbrella中恶意数据在https://download.csdn.net/download/herosunly/13781033中。

2020-12-25

pytorch环境安装

pytorch环境安装的PPT,步骤明确,适用于windows各个系统。

2019-04-26

知识图谱构建与实战PPT

知识图谱构建与实战PPT

2021-03-21

2019年科大讯飞工程机械核心部件寿命预测 代码与数据下载

2019年科大讯飞工程机械核心部件寿命预测 代码与数据下载,该文件是加密文件,解压密码在https://blog.csdn.net/herosunly/article/details/102711266中。

2021-02-25

基于机器学习的Web入侵检测模型应用分析

基于机器学习的Web入侵检测模型应用分析,可参考学习借鉴。

2019-04-26

新冠肺炎相关的微博数据(90万条)

数据包含微博id、微博发布时间、发布人账号、微博中文内容、微博图片

2021-03-05

人工智能在安全漏洞中的应用

人工智能在安全漏洞中的应用,内容详细丰富,值得学习。

2019-04-29

hdf5_适用于centos 6~7

安装Keras需要安装h5py,h5py就需要先安装hdf5。在centos6或者7环境下,编译的方法很难成功。

2020-11-27

安卓手机运行Python代码的apk文件.zip

安卓手机运行Python代码的apk文件,详细使用流程地址为https://blog.csdn.net/herosunly/article/details/115742190

2021-04-15

基于HTTP流量和DNS隧道技术进行检测

根据专家经验,总结出了恶意HTTP流量中各种不一致、字段异常、回传系统信息等情况以及部分木门和后门对应的DNS传输的特征。PPT多达70多页,内容详尽,值得学习。

2020-12-07

阿里云安全第一名PPT

基于动态沙箱API序列,对不同类型的样本做多分类。该内容较为简单,更多的trick详见我的最新博客https://blog.csdn.net/herosunly/article/details/113663095

2019-06-05

天池电力数据(训练集)

任务是给定不同用户id、时间以及耗电量,然后去预测下一月的数据。适合使用时序模型进行训练和预测数据。

2020-12-30

中国城市拼音和汉语对照表

json文件,key为城市的拼音,value为城市对应的汉语词汇。使用Python语言的接口是: import json with open(r'country.json', encoding = 'utf-8') as json_data: country_dict = json.load(json_data)

2020-11-20

感知机分类数据(线性可分和不可分)

感知机分类数据,包括线性可分数据(15.dat)和线性不可分数据(18.dat)。数据来源为林轩田老师的机器学习基石的作业。

2019-12-16

区块链安全

知道创宇的区块链安全培训,内容丰富全面,值得学习。

2019-04-30

2017-2020字节跳动安卓面试历年真题解析

本文档包含了2017-2020字节跳动安卓面试题目及其参考答案。内容详细丰富,总共300多页,值得深入学习和研究。

2020-12-18

从头开始训练BERT代码

从头开始训练BERT代码,解压密码在https://blog.csdn.net/herosunly/article/details/113937736

2021-02-22

《统计学习方法》第2版(小蓝书)课件

《统计学习方法》是学习机器学习的必备教材。该课件涵盖了书本的核心内容,非常适合于预习和复习。

2021-01-05

帮忙删除资源

发表于 2019-04-08 最后回复 2019-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除