自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

七月知上的博客

梦想从云上来,代表着自由。面对未知的世界,依然是小白。

  • 博客(33)
  • 收藏
  • 关注

原创 [机器学习]机器学习在短文本分类项目中的应用

前言:之前答应一个朋友介绍一下机器学习项目的基本流程,就以一个短文本分类项目为示例,介绍一下在面对机器学习项目时的基本解决思路,因为不是专业的算法工程师,所以有疏漏之处请大家多多见谅。同时由于这是一个内部比赛项目,所以数据无法公开,但是代码会分享在git上,代码写的也很一般,请大家多多理解。题目:为了减少公司售后服务的人力投入,平台部门做了售后智能机器人,主要通过用户的问题得到他的意图所属类别,但...

2018-06-29 21:56:46 8512 5

原创 [大数据]数据仓库好文分享

1.深入对比数据仓库模式:Kimball vs Inmonhttps://segmentfault.com/a/11900000062559542.如何通过数据驱动业务发展http://36kr.com/p/5092209.html3.数据仓库建设的基本思路和实践http://mp.weixin.qq.com/s/Dug4Z4uDTP9eZp5171owNw4.星型数据仓库olap工具kylin介...

2018-03-31 20:17:01 700

原创 [大数据]由点入面了解Hive

一:Hive内部表和外部表的区别?Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。二:数据倾斜的原因和解决方案?1.数据倾斜表现:任务进度长时间维持在99%(或100%),查看任...

2018-03-05 00:48:15 474

原创 [大数据]由点入面了解Yarn

一:Yarn的基本组成?1.ResourceManager(RM)RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Manager,ASM)。调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。应用程序管理器负责管理整个...

2018-03-04 21:28:13 336

原创 [大数据]由点入面了解MapReduce

一:MR的工作原理是什么?1.从HDFS读取的文件进行split分片,split与block的对应关系可能是多对一,默认是一对一,每一片对应一个map。2.在经过mapper的运行后,我们得知mapper的输出是这样一个key/value对;同时执行partitioner,每一个map对数据通过hash生成不同的key进行partition,决定数据对应的reduce,默认对key hash后再以...

2018-03-04 19:41:03 351

原创 [大数据]由点入面了解HDFS

一:HDFS各个模块职责?1.HDFS Client: 系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写, 写数据时文件切分由Client完成。2.Namenode:Master节点(也称元数据节点),是系统唯一的管理者。负责元数据的管理(名称空间和数据块映射信息);配置副本策略;处理客户端请求。3.Datanode:数据存储节点(也称Slave节点),存...

2018-03-04 14:47:10 434

原创 [项目规范]JAVA WEB项目实施规范

一:前言在此将Java Web项目的实施规范做一个总结。二:需求阶段需求阶段主要包含需求分析和需求拆分,下面针对这两块做一个说明。1.需求分析需求分析是由PM撰写初稿,然后PM,DEV,FE,QA四方共同review之后定稿的文档。DEV在review需求文档的时候,一定要注意需求是否合理,评估需求实现难度,并对开发进行初步估时。对于不合理的需求要及时提出疑问并和PM方沟通是否有做的必要或者如何进...

2018-02-26 22:17:09 7108

原创 [每日问答]ID3,C4.5,CART的区别是什么?

ID3,C4.5,CART的区别是什么?

2017-06-05 21:56:08 1403

原创 [每日问答]无约束最优化问题有哪些解法?

无约束最优化问题有哪些解法?1.梯度下降法 2.牛顿法 3.拟牛顿法

2017-05-17 21:19:22 927

原创 [每日问答]生成方法和判别方法有什么区别?

生成方法和判别方法有什么区别?

2017-05-16 10:14:22 1883

原创 [每日问答]逻辑回归为什么使用Sigmod作为激活函数?

逻辑回归为什么使用Sigmod作为激活函数?

2017-05-15 15:23:04 7624 1

原创 [每日问答]缺失值如何处理?

缺失值如何处理?1.删除 2.补全 3.忽略

2017-05-14 23:09:18 891

原创 [每日问答]特征选择和数据降维的区别?

特征选择和数据降维的区别?

2017-05-14 16:41:29 1135

原创 [每日问答]特征选择有哪些方法?

特征选择有哪些方法?1.嵌入式 2.包裹式 3.嵌入式

2017-05-14 16:17:23 626

原创 [每日问答]包含L1正则化项的目标函数如何求导?

包含L1正则化项的目标函数如何求导?1.近端梯度下降法 2.交替方向乘子法

2017-05-13 15:48:34 4641

原创 [每日问答]正负样本不平衡应该怎么处理?

正负样本不平衡应该怎么处理?1.过采样 2.欠采样 3.代价敏感方法

2017-05-11 16:45:24 2660

原创 [每日问答]模型融合的方式有哪些?

模型融合的方式有哪些?1.Bagging 2.Boosting 4.Blending 5.Stacking

2017-05-11 16:00:50 1355

原创 [每日问答]离散化的作用是什么?

离散化的作用是什么?1.算法需要 2.对异常数据有很强的鲁棒性 3.有利于对非线性关系进行诊断和描述 4.加快运算速度 5.特征交叉 6.模型更加稳定

2017-05-10 20:33:07 3684

原创 [每日问答]归一化的作用是什么?

归一化的作用是什么?1.无量纲化 2.避免数值问题 3.一些模型求解的需要 4.时间序列 5.收敛速度

2017-05-10 17:37:00 7979

原创 [笔试面试]计算机专业校招笔试面试基础知识总结

这里总结了校招笔试面试过程中常见的基础问题,包括数据结构,计算机网络,操作系统,数据库的知识。

2017-05-07 17:08:42 16651 1

原创 [机器学习笔记]最大熵模型

最大熵原理是统计学习的一般原理,将它应用到分类得到最大熵模型。

2017-05-07 16:55:01 381

原创 [机器学习笔记]主成分分析

实际问题中过多的特征增加了问题的复杂性,所以需要将特征组合为较少的代表性特征,这些组合的特征能代表原始特征的绝大部分信息,且组合后的特征之间互不相关,而这一种方法就是主成分分析 (PCA),PCA 是最常用的一种降维方法。

2017-01-11 20:25:40 514

原创 [机器学习笔记]线性判别分析

线性判别分析(LDA)是一种经典的线性学习方法,亦称Fisher判别分析。LDA的思想非常朴素,即给定训练集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能接近,异类样本的投影点尽可能的远。

2017-01-10 22:11:23 603

原创 [机器学习笔记]HMM

隐马尔可夫模型(HMM)是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。HMM的实际问题主要包含概率计算问题,学习问题和预测问题。

2017-01-10 13:48:45 1207

原创 [机器学习笔记]xgboost

xgboost是数据挖掘比赛中神器,本文是对xgboost理论部分数学推导的笔记,最后还转载了知乎上对GBDT和xgboost异同的分析。

2017-01-09 00:06:10 1063 2

原创 [机器学习笔记]EM算法

EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计或极大后验概率估计。EM算法分为求期望的E步和求极大的M步,所以这一算法称之为期望极大算法。

2017-01-07 16:19:58 933

原创 [机器学习笔记]机器学习基本概念总结

机器学习基本概念的总结

2016-12-27 13:59:07 1370

原创 [机器学习笔记]boosting

提升(boosting)方法是一种思想,可以应用于分类,也可以应用于回归。AdaBoost,GBDT,xgboost等算法就是利用提升思想的算法。

2016-12-26 22:15:10 650 1

原创 [机器学习笔记]支持向量机(下)

支持向量机是一种二分类模型,它的最基本模型是定义在特征空间上间隔最大的线性分类器。支持向量机分为线性可分支持向量机,线性支持向量机和非线性支持向量机。

2016-12-26 17:10:46 625

原创 [机器学习笔记]支持向量机(中)

支持向量机是一种二分类模型,它的最基本模型是定义在特征空间上间隔最大的线性分类器。支持向量机分为线性可分支持向量机,线性支持向量机和非线性支持向量机。

2016-12-26 17:08:43 644

原创 [机器学习笔记]支持向量机(上)

支持向量机是一种二分类模型,它的最基本模型是定义在特征空间上间隔最大的线性分类器。支持向量机分为线性可分支持向量机,线性支持向量机和非线性支持向量机。

2016-12-22 14:00:02 1226

原创 [机器学习笔记]朴素贝叶斯

朴素贝叶斯是经典的机器学习分类算法,为了更好的理解朴素贝叶斯方法,在这里对数学公式进行了推导,同时对常用的参数估计方法也作了说明。水平有限,有所疏漏敬请指出。

2016-12-16 11:21:02 789

原创 [机器学习笔记]回归

为了更好的理解机器学习中回归算法,将回归算法的数学推论做了推导,主要参考了斯坦福大学吴恩达和小象学院邹博的课件,以及李航的统计学习方法。水平所限若有所疏漏,敬请指出。

2016-12-14 17:37:35 14508

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除