Machine Learning
Omni-Space
专注Android, Mobile Security and AI
展开
-
机器学习常见算法个人总结(面试用)
朴素贝叶斯参考[1]事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生AP(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B)所以有:P(A|B)=P(B|A)∗P(A)P(B)对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别工作原理假设现在有样本x=(a1,转载 2016-05-16 02:23:56 · 10955 阅读 · 3 评论 -
机器学习数学基础总结
目录线性代数 一、基本知识 二、向量操作 三、矩阵运算 概率论与随机过程 一、概率与分布 1.1 条件概率与独立事件 1.2 联合概率分布 二、期望 三、方差 3.1 方差 3.2 协方差与相关系数 3.3 协方差矩阵 四、大数定律及中心极限定理 4.1 切比雪夫不等式 4.2 大数定理 4.3 中心极限定理...转载 2019-04-05 17:45:28 · 3389 阅读 · 0 评论 -
机器学习时代的散列简介
2017年12月,谷歌和麻省理工学院的研究人员发表了一篇关于他们在“学习型指数结构”中的努力的挑衅性研究报告 。 这些研究非常令人兴奋,正如作者在摘要中所述:“我们相信,通过学习模型取代数据管理系统核心组件的想法对未来的系统设计有着深远的影响,而且这项工作只是提供了可能的一瞥。”事实上,谷歌和麻省理工学院研究人员提出的结果包括可能表明索引世界中最可敬的中坚力量新竞争的结果:B-树和哈希图。 工程界...翻译 2018-05-08 08:18:07 · 429 阅读 · 0 评论 -
An Introduction to Hashing in the Era of Machine Learning
In December 2017, researchers at Google and MIT published a provocative research paper about their efforts into “learned index structures”. The research is quite exciting, as the authors state in the ...转载 2018-05-08 08:18:03 · 1197 阅读 · 0 评论 -
Random Forest in Python: A Practical End-to-End Machine Learning Example
There has never been a better time to get into machine learning. With the learning resources available online, free open-source tools with implementations of any algorithm imaginable, and the cheap av...转载 2018-05-07 11:04:12 · 1035 阅读 · 0 评论 -
详解机器学习中的熵、条件熵、相对熵和交叉熵
目录信息熵条件熵相对熵交叉熵总结1、信息熵熵(entropy)这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵,信息熵。本文只讨论香农熵。首先,我们先来理解一下信息这个概念。信息是一个很抽象的概念,百度百科将它定义为:指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。那信息可以被量化么?可以的!香农提出的“信息熵”概念解决了这...转载 2018-04-06 11:22:11 · 1119 阅读 · 0 评论 -
The 8 Neural Network Architectures Machine Learning Researchers Need to Learn
Why do we need Machine Learning?Machine learning is needed for tasks that are too complex for humans to code directly. Some tasks are so complex that it is impractical, if not impossible, for humans转载 2018-02-03 08:19:44 · 950 阅读 · 0 评论 -
机器学习 + 深度学习 + 计算机视觉 + 自然语言处理: 原理, 实践以及应用 --- 干货分享(持续更新…)
Stanford c231n (Youtube) ××××××Google Deep Learning Course on Udacity[Coursera] Neural Networks for Machine Learning — Geoffrey Hinton 2016Neural networks class - Université de SherbrookeMIT 6.S原创 2017-02-06 17:44:30 · 3446 阅读 · 0 评论 -
盘点:2017年GitHub上30个优秀的机器学习项目
我们比较了过去一年近8,800个开源的机器学习项目,从中选择了30个表现优秀的,分享给读者。这是一份非常精彩的名单,它仔细挑选了2017年1月至12月之间发布的最佳开源机器学习库、数据集和应用程序。我们综合考虑项目的受欢迎程度,参与度和进展程度来评估项目质量。为了给读者更直观的感受,使用GitHub上的关注量(星星数量)来表示项目热度。注意,GitHub上项目的平均关注量是3558。开源项目对于数转载 2018-01-15 15:44:13 · 2044 阅读 · 0 评论 -
爬取微博对话语料制作聊天机器人
微博终结者爬虫关于聊天对话系统我后面会开源一个项目,这个repo目的是基于微博构建一个高质量的对话语料,本项目将继续更进开发,大家快star!!永远开源!这个项目致力于对抗微博的反爬虫机制,集合众人的力量把微博成千上万的微博评论语料爬取下来并制作成一个开源的高质量中文对话语料,推动中文对话系统的研发。本系统现已实现:爬取指定id用户的微博数,关注数,粉丝数,所有微博内容以及所有转载 2017-10-01 14:49:19 · 3409 阅读 · 0 评论 -
Predictive modeling, supervised machine learning, and pattern classification — the big picture
When I was working on my next pattern classification application, I realized that it might be worthwhile to take a step back and look at the big picture of pattern classification in order to put my pr转载 2017-10-01 03:40:52 · 1031 阅读 · 0 评论 -
A Tour of Machine Learning Algorithms
In this post, we take a tour of the most popular machine learning algorithms.It is useful to tour the main algorithms in the field to get a feeling of what methods are available.There are so m转载 2017-09-20 13:13:57 · 696 阅读 · 0 评论 -
利用机器学习进行恶意代码分类
0x00 前言注:本文已在乌云知识库发表,地址:http://drops.wooyun.org/tips/8151最近在Kaggle上微软发起了一个恶意代码分类的比赛,并提供了超过500G的数据(解压后)。有意思的是,取得第一名的队伍三个人都不是搞安全出身的,所采用的方法与我们常见的方法存在很大不同,展现了机器学习在安全领域的巨大潜力。在仔细读完他们的代码和相关的论文后,我简单的进行了一些转载 2017-09-28 04:40:04 · 5901 阅读 · 0 评论 -
Your Prediction Gets As Good As Your Data
In the past, I have often seen that software engineers and data scientists assume that they can keep increasing their prediction accuracy by improving their machine learning algorithm. Here, I want to转载 2017-07-11 09:20:54 · 403 阅读 · 0 评论 -
Top 16 Machine Learning, Data Mining, and NLP Books
Top Machine Learning & Data Mining Books - in this post, we have scraped various signals (e.g. reviews & ratings, topics covered in the book, author influence in the field, etc.) from web for more tha转载 2017-07-11 09:18:12 · 730 阅读 · 0 评论 -
基于机器学习的web异常检测
Web防火墙是信息安全的第一道防线。随着网络技术的快速更新,新的黑客技术也层出不穷,为传统规则防火墙带来了挑战。传统web入侵检测技术通过维护规则集对入侵访问进行拦截。一方面,硬规则在灵活的黑客面前,很容易被绕过,且基于以往知识的规则集难以应对0day攻击;另一方面,攻防对抗水涨船高,防守方规则的构造和维护门槛高、成本大。基于机器学习技术的新一代web入侵检测技术有望弥补传统规转载 2017-04-24 16:13:12 · 3356 阅读 · 0 评论 -
时间序列分类算法简介及其在能耗数据分类上的应用
本文首先简要介绍最近几年来时间序列分类算法的最新研究成果,包括dynamic time warping的各种改进技术和相关研究,以及最新的聚合式算法(ensemble algorithm)。其次以根据能耗数据来监测服务器运行程序的研究为实例,介绍如何对实际应用中的时间序列数据进行更准确的分类。一、时间序列分类算法综述 时间序列分类问题(Time Series Classification...转载 2019-04-11 15:07:33 · 1171 阅读 · 0 评论