自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 树型模型&集成模型小结

本博客内容较散,作为针对笔者遗漏或生疏知识点为主进行整理,敬请谅解。树型模型:以决策树为基础,ID3、C4.5为代表决策树:本质是以实例为基础的归纳学习核心思想:根据划分准则分而治之,自顶向下构造一棵熵值下降最快的树最大的优点:可以自学习,不需要过多的业务知识;可解释性强,推理分类规则关键在于如何确定划分依据:ID3信息增益:利用样本纯度来切分,对取值数目多的属性有所偏...

2018-08-01 13:18:54 687

原创 FM模型小结

FM是一个不得不提的算法,将部分笔记内容整理到博客,内容文字不甚成系统,只作为记录点拨之用。从特征组合说起:对逻辑回归最朴素的特征组合就是二阶笛卡尔积,但其中也有问题所在:两两组合导致维度灾难 组合后特征并不见得都有效,通常大量无效特征 组合后特征样本非常稀疏,如果样本中不存在对应组合,则无法学习参数,该组合无意义Y = ω0 + Σωixi + ΣΣωijxixj如公式,若...

2018-07-27 15:54:28 4861

原创 分布式文件系统HDFS—技术小结

将笔记中HDFS中部分学习总结记录于此,对HDFS进行粗浅的介绍。提出问题:1.HDFS副本存放策略;2.大文件写入策略(切分blocks,三份备份);3.HDFS不适合存储小文件,为什么?(元数据存储在内存中,过多小文件带来大量元数据,导致namenode负载过大)建议读GFS原版论文,多读读。概述:非常易于扩展 运行在大量廉价主机上,提供容错机制,适合网盘业务 为大量用户提...

2018-07-27 15:47:33 657

原创 Excel中的小技巧&大智慧

将OneNote中的笔记部分经过整理转来博客,主要根据自己较为不熟悉的点进行记录。Excel作为一款微软开发的数据分析和报表制作软件,有其自身良好的可用性和对windows系统的适应性。诚然,对于从事数据算法的专业从业者,完全可以使用Python、R、SAS等更为高端的操作来实现各种相同的数据操作,但是Excel作为一款易于使用的大众化的分析软件,我们完全可以将其加入自己的技能库,对一些数...

2018-07-27 15:39:37 875

原创 机器学习项目的实验方法

发现对于一些机器学习项目,在项目进行中往往会直接就开始编码实现,而没有一套完整的方法论和有实操性的流程,经过一些粗浅的研究,下面写出一些对于此的部分思考,或有参考借鉴之用。实验开始前,需要清楚研究什么,如何收集数据,打算怎样分析1. 研究目标需要通过从清楚陈述问题、定义研究目标开始。给定多个学习算法和一个有数据集定义的具体问题,我们可能希望确定哪个算法具有较低的泛化误差;可能希望对...

2018-07-27 15:17:18 2019

原创 Git学习笔记

将OneNote中Git的学习部分转来博客,包括一些常见命令以及分支的管理 $ git config --global user.name "Your Name"$ git config --global user.email "email@example.com"Git init 在目录下创建gitGit add filenameGit commit -m "comment"...

2018-07-27 15:12:05 120

原创 数据科学业务漫谈

将笔记中数据科学部分杂七杂八内容进行整理,分享在此:对于一个即将开展的数据科学项目,通常需要多方参与和资源调配,那么在此过程中都有哪些步骤和人员安排?本篇文章便对一些常见的业界解决方案进行描述,提出数据科学从业人员的分工以及项目开展过程中遇到问题的解决方案。数据科学角色分工:深层分析人才:拥有多项技能,具有处理结构化、非结构化数据的能力,并且可以应用复杂的大规模分析技术。深入学习各类量...

2018-07-27 15:08:10 265

原创 数据仓库形态漫谈

将笔记中有关数据科学的杂七杂八内容进行整理,分享在此首先,提几个有关数据仓库学习收获的相关小点子:1. 非结构化数据是未来主体2. 随着数据岛的增加,数据集中化的需求比以往任何时候都要迫切3. 可扩展的数据仓库解决方案,使得数据可以被集中管理,可以提供安全性、故障切换和单一仓库4. 单一数据仓库便于创建OLAP多位数据集和商业智能分析 工具于是引入了企业级数据仓库EDW。...

2018-07-27 15:05:45 319

原创 MAB问题和Bandit算法

将笔记中的MAB问题转来博客。本篇重点分享一下MAB问题的思考和一些解决算法。Bandit算法常常用于解决EE问题和部分用户的冷启动问题。推荐系统的使命是在物品和用户之间建立连接,为用户匹配到最佳物品也有另一个理解:在某个时间某个位置为用户选择最好的物品推荐就是选择人为什么害怕选择?究其原因是因为人把每个选项看做独一无二的个体,错过不再来推荐系统中的选择也是如此,一旦选...

2018-07-27 14:57:50 13352 2

原创 谷歌点击率预估模型:FTRL算法小结

抽空拜读谷歌2013年发表的论文“Ad Click Prediction: a View from the Trenches”,进行一些简单的小结。大型广告系统的成功需要很多相互协调的子系统和组件,而其中最基础的一个字系统,也是整个广告系统中最核心的功能之一,便是点击率预估系统。根据环境和广告的类型没来估计用户有多大的可能性点击当前的广告。2013年发表于KDD工业论文组Googl...

2018-07-27 14:53:26 2266

原创 Snort学习笔记

Snort是一个开源的、占用资源较少的多平台部署的入侵检测系统。1.Snort前言:必须要考虑Snort自身安全。否则其检测到的数据无可信度。安全设备的自身安全是非常重要的。一旦系统遭受攻击,如DDoS攻击,与Snort争夺计算资源,造成Snort不可用。需要对Snort的应用环境进行良好的安全策略部署。2.Snort安全加固:关闭不需要的服务/保持系统完整性(Tripwire、AIDE)

2016-04-16 16:52:36 2216

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除