自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

飘过的春风

小白的进阶

原创 xgboost: Higgs Boson Machine Learning Challenge

代码原始出处: https://github.com/dmlc/xgboost/tree/master/demo/kaggle-higgs 一、问题介绍 竞赛官网:https://www.kaggle.com/c/higgs-boson/ 希格斯玻色子(英语:Higgs boson)是标准模...

2019-07-28 13:29:38 344 2

原创 shell命令行&&、||和 ; 的使用方法

一、&&运算符: 如下:&&左边的命令(命令1)返回真(即返回0,成功被执行)后,&&右边的命令(命令2)才能够被执行;换句话说,“如果这个命令执行成功&&那么执行这个命令”。 command1 && comman...

2019-07-28 13:21:14 1027 2

转载 机器学习:什么是欠拟合和过拟合

1. 什么是欠拟合和过拟合 先看三张图片,这三张图片是线性回归模型 拟合的函数和训练集的关系 第一张图片拟合的函数和训练集误差较大,我们称这种情况为欠拟合 第二张图片拟合的函数和训练集误差较小,我们称这种情况为合适拟合 第三张图片拟合的函数完美的匹配训练集数据,我们称这种情况为过拟合 ...

2019-07-27 11:25:32 17132 0

原创 docker入门

Docker 是一个开源的应用容器引擎。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口,更重要的是容器性能开销极低。总结起来一句话,docker确实好用。 ...

2019-07-23 16:11:17 142 0

转载 极大似然估计和贝叶斯决策详解

原博客链接1 :https://blog.csdn.net/zengxiantao1994/article/details/72787849 原博客链接2: https://blog.csdn.net/linyanqing21/article/details/50939009 主要内容:总结起...

2018-12-26 20:49:13 545 0

转载 Jupyter Notebook使用教程(如何在code和markdown切换,快捷键设置)

1、启动 在终端中输入以下命令: jupyter notebook --allow-root 执行命令之后,在终端中将会显示一系列notebook的服务器信息,同时浏览器将会自动启动Jupyter Notebook。 启动过程中终端显示内容如下: $ jupyter noteboo...

2018-12-07 11:32:36 12906 0

转载 markdown(md)文件的基本常用编辑语法

.md即markdown文件的基本常用编写语法(图文并茂) 原文:https://www.cnblogs.com/liugang-vip/p/6337580.html 起因: 因为现在的前端基本上都用上了前端构建工具,那就难免要写一些readme等等的说明性文件,但是这样的文件一般都是.md...

2018-12-06 22:48:12 2579 1

转载 我上了985,211,才发现自己一无所有 | 或者,也不能这么说

转载:旦事记  《我上了985,211,才发现自己一无所有 | 或者,也不能这么说》一文   我是在很久以后才意识到原来那些看起来光鲜亮丽的人心里也是在自卑的。    这个发现很偶然,是有一次我的学霸舍友回来,非常非常不开心,趴在桌子上很久很久没有起来。   我打着炉石呢,觉得不对劲回...

2018-11-02 08:40:46 3245 5

转载 机器学习中的范数规则化之 L0、L1与L2范数

原文:https://blog.csdn.net/zouxy09/article/details/2497199          今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅...

2018-10-24 16:12:13 489 0

转载 词嵌入向量(Word Embedding)的建模

1、Embedding函数 从前面的定义,我们期望在隐层中找到一个/组嵌入函数W(这里采用lookup table的方式),使得![][3]具体的,假设指定固定的向量维度,W("篮球")=(0.2, -0.4, 0.7, ...),W("苹果")=(0.0...

2018-09-29 21:48:03 2616 0

转载 词嵌入向量(Word Embedding)的原理和生成方法

“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。” Word Embedding 词嵌入向量(WordEmbedding)是NLP里面一个重要的概念,我们可以利用Word ...

2018-09-29 11:08:12 7749 1

转载 Bow词袋模型原理与实例(bag of words)

The bag-of-words model is a simplifying assumption used in natural language processing and information retrieval. In this model, a text (such as a se...

2018-09-29 10:50:59 2514 0

转载 程序化广告交易中的点击率预估

指标   广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标:      1. 排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户。这个是变现的基础,从技术上,我们用AUC来度量。      2. 数值指标。数值指...

2018-09-18 12:24:04 352 0

转载 GBDT+LR特征融合的例子

sklearn直接使用.apply即可完成,下面看下简单的例子,GBDT+LR融合后比直接使用GBDT预测,AUC提升了0.004 import pandas as pd from sklearn.linear_model import LogisticRegression from sk...

2018-09-18 12:21:22 994 0

转载 CTR预估中GBDT与LR融合方案

原文:https://blog.csdn.net/lilyth_lilyth/article/details/48032119 1、 背景       CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预...

2018-09-18 11:14:01 203 0

原创 pandas的iloc、loc、ix的使用(列切片及行切片)

loc:通过选取行(列)标签索引数据  iloc:通过选取行(列)位置编号索引数据  ix:既可以通过行(列)标签索引数据,也可以通过行(列)位置编号索引数据 df是一个dataframe,列名为A B C D 具体值如下: A B C D 0 ss 小红 ...

2018-09-15 22:07:30 10786 0

转载 解决jupyter中matplotlib中文乱码问题

第一步:系统中文字体查看 [hadoop@p168 ~]$ fc-list :lang=zh /System/Library/Fonts/STHeiti Medium.ttc: 黑体\-简,黑體\-簡,Heiti SC,黒体\-簡,Heiti\-간체:style=中等,中黑,Medium,Ha...

2018-09-14 23:13:37 1765 0

转载 Kaggle案例之泰坦尼克船员幸存预测

无意间在网易云课堂上找了一个Kaggle案例,泰坦尼克获救船员预测,在此之前我是从没接触过kaggle,毕竟是刚入门的小白,看着视频,算是真正实战了一次,主要是在这个过程中学到了很多东西。 下面视频地址http://study.163.com/course/courseLearn.htm?cour...

2018-09-14 10:54:03 495 1

转载 使用sklearn优雅地进行数据挖掘

目录 1 使用sklearn进行数据挖掘   1.1 数据挖掘的步骤   1.2 数据初貌   1.3 关键技术 2 并行处理   2.1 整体并行处理   2.2 部分并行处理 3 流水线处理 4 自动化调参 5 持久化 6 回顾 7 总结 8 参考资料 1 使用sklearn进行数据挖掘 ...

2018-09-06 09:49:23 282 0

转载 用sklearn做特征工程

目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换   2.6 回顾 3 ...

2018-09-05 20:47:00 498 0

转载 数学基础

线性代数  https://www.matongxue.com/courses/1/ 微积分  https://www.matongxue.com/courses/2/   马同学高等数学 如何理解主元分析(PCA)? https://www.matongxue.com/madocs/102...

2018-09-03 19:15:28 178 0

转载 如何理解主元分析(PCA)?

原文 https://mp.weixin.qq.com/s/oqnb8yv0bJ__OLpcBSvtVg

2018-09-03 18:33:50 820 0

转载 联合概率分布

原文 https://blog.csdn.net/tiankong_/article/details/78332666 1.什么是联合概率分布?   联合概率分布简称联合分布,是两个及以上随机变量组成的随机向量的概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联...

2018-08-29 11:14:31 2878 0

原创 独立同分布

       在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。(independent and identically distributed )   随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值...

2018-08-29 09:36:55 1699 0

转载 neo4j的存储方式

neo4j图形数据库是以图形结构的形式存储数据的数据库。 它以节点,关系和属性的形式存储应用程序的数据。 正如RDBMS以表的“行,列”的形式存储数据,GDBMS以“图形”的形式存储数据。 Neo4j 是目前最流行的图形数据库,支持完整的事务,在属性图中,图是由顶点(Vertex),边(Edge...

2018-08-06 09:57:34 3434 0

转载 特征工程:衡量特征的重要型

知乎特征选择:https://zhuanlan.zhihu.com/p/32749489 结合sklearn的几种特征选择方法:https://www.cnblogs.com/hhh5460/p/5186226.html 结合sklearn的几种特征选择方法2 :https://blog.cs...

2018-08-04 15:12:31 560 0

转载 机器学习中缺失值的处理

“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。” 1、怎么理解决策树、xgboost能处理缺失值?而有的模型(svm)对缺失值比较敏感呢? 首先从两个角度解释你的困惑: ...

2018-08-03 22:24:30 9320 0

转载 FM(Factorization Machines )特征处理

博客链接: 知乎,讲解的比较好 https://zhuanlan.zhihu.com/p/37963267 算法理论:https://www.cnblogs.com/AndyJee/p/7879765.html FM/FFM算法 https://zhuanlan.zhihu.com/p/3...

2018-08-01 19:39:30 1629 0

转载 理解LSTM网络

原文:https://www.jianshu.com/p/9dc9f41f0b29   理解原文的关键在于理解,三个门(忘记门,输入门,输出门)和细胞状态的更新。

2018-08-01 15:29:06 170 0

转载 模型融合—— stacking详细讲解

“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。” stacking的过程有一张图非常经典,如下: 虽然他很直观,但是没有语言描述确实很难搞懂。 上半部分是用一个...

2018-07-31 14:42:59 15313 7

转载 xgboost相比传统gbdt有何不同?xgboost为什么快?如何支持并行?

传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgb...

2018-07-30 21:29:01 586 0

转载 jieba 详细介绍

原文:https://github.com/fxsjy/jieba jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"  Feature 支持三种分词模式:  精确模式,试图将句子最精确地切开,适合文本分析;...

2018-07-27 10:54:04 3821 1

转载 Adaboost入门教程——最通俗易懂的原理介绍

原文 https://blog.csdn.net/px_528/article/details/72963977 说到Adaboost,公式与代码网上到处都有,《统计学习方法》里面有详细的公式原理,Github上面有很多实例,那么为什么还要写这篇文章呢?希望从一种更容易理解的角度,来为大家呈现A...

2018-07-25 09:33:26 339 0

转载 特征提取方法: one-hot 和 TF-IDF

转载:https://www.cnblogs.com/lianyingteng/p/7755545.html 推荐阅读:https://blog.csdn.net/lanhaier0591/article/details/78702558 https://blog.csdn.net/bitca...

2018-07-18 00:21:21 863 0

原创 Word2vec简介,入门

word2vec构建的过程: https://www.cnblogs.com/Newsteinwell/p/6034747.html https://blog.csdn.net/zhaoxinfan/article/details/11069485 Word2vec,是用来产生词向量的相关模型...

2018-07-15 17:32:07 2340 0

原创 论文阅读:基于用户上网数据的电影个性化推荐系统研究

基于用户上网数据的电影个性化推荐系统研究 赵鹏程,黄韬* *(北京邮电大学信 工程学院,北京 100876)  摘要:本文讲述了如何构建出完整电影知识图谱的方法,同时提出了一套发掘电影系列的实现算法。基础数据为用户的上网请求,在不需要用户参与的情况下获得用户的电影兴趣行为,从中提取出与电影...

2018-07-15 15:13:58 4516 3

原创 论文阅读:知识图谱技术综述

知识图谱技术综述 徐增林1,盛泳潘1,贺丽荣1,王雅芳2  目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领域。尤其是在智能搜索中,用户的搜索请求不再局限于简单的关键词匹配, 搜索将根据用户查询的情境与意图进行推理,实现概念检索。与此同时,用户的搜...

2018-07-13 09:09:30 1058 0

原创 论文阅读:知识图谱的推荐系统综述

知识图谱的推荐系统综述常亮,张伟涛,古天龙,孙文平,宾辰忠(桂林电子科技大学广西可信软件重点实验室, 广西 桂林 541004) 摘要:搜索引擎和推荐系统是解决信息过载的代表技术。传统的搜索引擎在本质上来讲是帮助用户过滤和筛选信息,这种方式满足了大多数 人的需求,但没有提供个性化的服务。相对于传统...

2018-07-06 15:31:21 6026 0

转载 Boost Graph Library 快速入门

Boost Graph Library快速入门 图领域的数据结构和算法在某些方面比容器更为复杂,图算法在图中移动有着众多的路线,而STL使用的抽象迭代器接口不能有效的支持这些。作为替换,我们为图提供了一个的抽象的结构,其与容器迭代器的目的类似(尽管迭代器扮演着更大的角色)。图1 描述了S...

2018-06-28 08:27:41 3996 0

原创 牛牛打响指--大数做除法

链接:https://www.nowcoder.com/questionTerminal/442cbe24e08447729543510c2eb47082 来源:牛客网 牛牛在地上捡到了一个手套,他带上手套发现眼前出现了很多个小人,当他打一下响指,这些小人的数量就会发生以下变化:如果小人原本的数量...

2018-06-15 15:32:58 484 0

提示
确定要删除当前文章?
取消 删除