西瓜书第二章总结

1、欠拟合比较好解决,过拟合则很麻烦,而且必须认识到过拟合是无法避免的,我们所做的只能是“缓解”。 2、模型评估 2.1、留出法(hold out): 留出法将数据集D划分为两个互斥的集合,其中一个座位训练集S,另一个作为测试集T。 即 S + T= D,S交集T为空。在S上训练出模型后,用...

2019-04-25 20:56:37

阅读数 49

评论数 0

西瓜书第一章的几条总结

1、奥卡姆剃刀(Occam's razor)是一种常用的、自然科学研究中最基本的原则。即“若有多个假设与观察一致,则选择最简单的那个” 2、“天下没有免费的午餐”定理(No Free Lunch Theorem,简称 NFL),证明了所有算法的期望性能都相同。但我们要注意到NFL定理有一个重要的...

2019-04-20 16:17:44

阅读数 12

评论数 0

XGBoost算法原理

转自:XGBoost与Boosted Tree | 我爱计算机 1. 前言    应 @龙星镖局 兄邀请写这篇文章。作为一个非常有效的机器学习方法,Boosted Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好,对于输入要求不敏感,往往是从统计学家到数据科学家必备的工具之一,它同时也...

2018-11-12 14:32:36

阅读数 75

评论数 0

GBDT算法原理

GBDT即可用于解决回归问题,也能用于解决分类问题。在初步理解GBDT时,最好从回归和分类的角度分别理顺思路,发现其中的不同和关键点,就能初步明白GBDT的算法原理。接下来从回归和分类的角度分别记录下: 1、回归的角度——初步: GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首...

2018-11-05 20:48:40

阅读数 583

评论数 0

AdaBoost算法原理

                                            AdaBoost算法原理 前言 1、AdaBoost(Adaptive Boosting)是boosting类算法最著名的代表。 2、Kearns 和 Valiant首先提出了“强可学习” 和 “弱可学习...

2018-10-30 21:43:29

阅读数 240

评论数 0

集成学习方法

这篇博文的记录思路:1、说明集成学习的定义即什么是集成学习。2、说明集成学习的分类。3、按照分类介绍。4、其他相关概念和经验的罗列。 集成学习的定义 集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将他们结合起来。(“个体学习器”举例:由C4.5决策树算法、BP神经网络算法、LR、线...

2018-10-22 09:47:44

阅读数 141

评论数 1

推荐相关的观点、典型例子记录

1、广告、搜索、推荐相关人员与技术和业务产品之间的关系,想将广告和搜索做好更多的从广告系统(技术)和搜索系统(技术)的角度出发即可,但是想把推荐做好需要从推荐产品的角度出发,而不仅仅是推荐系统(技术)的角度。基于此一个懂算法的产品经理或是能用产品语言沟通的算法工程师是难能可贵的!!! 2、关...

2018-07-24 16:07:21

阅读数 181

评论数 0

ES创建索引的过程

                                                                                    ES中创建索引的详细分析总览ES 创建索引最终都会调用 org/elasticsearch/index/engine/Intern...

2018-05-12 11:40:11

阅读数 2272

评论数 0

elasticsearch中版本号(version)的问题

    今天在分析ES的索引的创建过程中看到了些和version相关的变量(例如:versionForIndexing)。这些个变量是干什么的呢?    答:用于冲突处理的。    在ES的应用场景中,使用index API更新文档,可以一次性读取原始文档,做修改,然后重新索引整个文档,最近的索引...

2018-04-18 20:27:28

阅读数 8809

评论数 0

elasticsearch 分析器

一、Elasticsearch的分析器(analyzer)包括三部分:    1、字符过滤器:他们的任务是在分词前整理字符串。一个字符过滤器可以用来去掉HTML,或者将 & 转化成 `and`等。    2、分词器:简单的分词器遇到空格或标点的时候讲文本拆分为词条(Toke...

2018-04-17 17:41:22

阅读数 175

评论数 0

IntelliJ IDEA中Elasticsearch 6.1.0调试环境搭建

环境:Windows(注:很多ES调试环境的搭建都是Mac,可惜没钱买macbook pro)1、我的目的:阅读分析ES的源码。2、搭建debug环境需要的软件为:2.1、git2.2、IntelliJ IDEA2.3、gradle2.4、elasticsearch 6.1.0源码。      2...

2018-04-08 20:07:32

阅读数 1479

评论数 1

图解Python深拷贝和浅拷贝

参见连接:http://www.cnblogs.com/wilber2013/p/4645353.html 总结: Python中对象的赋值都是进行对象引用(内存地址)传递使用copy.copy(),可以进行对象的浅拷贝,它复制了对象,但对于对象中的元素,依然使用原始的引用.如果需要复...

2018-01-30 14:28:36

阅读数 149

评论数 0

ELK系统系列 2——Logstash的安装使用&性能调优

Logstash的安装&使用总: 官网链接下载已经编译好的Logstash。 到bin目录下: 执行./logstash -f ../config/xxx.conf 即可使用logstash。 分-1: 上述命令中xxx.conf文件是自行需要配置的,以我个人的使用为例,如下图: 至...

2017-08-14 10:27:16

阅读数 531

评论数 0

ELK系统系列 1 ——ElasticSearch集群搭建

ElasticSearch集群搭建背景:我们要搭建一个ELK系统,目标是用于检索系统和用户画像系统。选用的版本是elasticsearch5.5.0+logstash5.5.0+kibana5.5.0。ElasticSearch集群搭建步骤:1.安装java 8以上版本的JDK。 从http://...

2017-08-11 16:07:03

阅读数 859

评论数 0

Linux环境变量的区分

Linux环境变量的区分 Linux和windows一样,分为用户环境变量和系统环境变量! 配置用户的环境变量只需要编辑用户住文件夹下面的 .bashrc 文件即可。 还有一个文件里的环境变量是在这个文件之前读取的,这样我们 就可以设置这个文件,从而为系统设置环境变量(注意这里是为整个...

2017-08-11 14:54:35

阅读数 197

评论数 0

Logstash的使用

现在有一个“用户画像”的项目;前期需要搭建一个ElasticSearch的集群用来存储用户的行为数据;在搭建好ES的集群后,导入数据到ES是一个问题,采用的是Logstash进行数据导入;现将Logstash使用过程中碰到的问题记录如下: 1. 刚刚接触Logstash,对各个参数都不熟悉,需要...

2017-07-19 15:15:22

阅读数 748

评论数 0

分词算法

1.正向最大匹配算法 基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。   算法流程图如下: 以上内容参见:http://yangshangchuan.iteye.com/blog/2031813 此文章还对比了linke...

2017-03-30 16:33:41

阅读数 456

评论数 0

点到平面的距离公式的推导

点到平面的距离公式 准备知识 平面的一般式方程 Ax +By +Cz + D = 0 其中n = (A, B, C)是平面的法向量,D是将平面平移到坐标原点所需距离(所以D=0时,平面过原点) 向量的模(长度) 给定一个向量V(x, y, z),则|V| = sqrt(x * x + ...

2017-03-22 10:09:41

阅读数 4159

评论数 0

字符串常量到底存放在哪个存储区

字符串常量,放在哪个存储区呢?是“自动存储区”还是“静态存储区”中? 比如: char *pstr="hello world!"; 这里,"hello world!"是一个字符串常量, pstr是在栈中的变量。 我想问,字符串常量,在哪个内...

2017-03-15 17:15:34

阅读数 4051

评论数 1

【C++模版之旅】神奇的Traits

介绍traits的文章很多,但感觉大部分文章的说明都很晦涩难懂,把一个并不很复杂的C++模板的应用描述的过于复杂。忍不住想把自己的理解跟大家分享一下,或许我也只是掌握了一点traits的皮毛而已,但也希望这些皮毛能略微抓住你的眼球,带给你一些启发。 首先,介绍traits前,回味一下C+...

2017-03-08 19:39:24

阅读数 213

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭