2018年07月_深圳湾刘能

原创文本相似度bm25算法的原理以及Python实现(jupyter notebook)

今天我们一起来学习一下自然语言处理中的bm25算法，bm25算法是常见的用来计算query和文章相关度的相似度的。其实这个算法的原理很简单，就是将需要计算的query分词成w1，w2，…，wn，然后求出每一个词和文章的相关度，最后将这些相关度进行累加，最终就可以的得到文本相似度计算结果。首先我们来看一下bm25算法的计算公式： Score(Q,d)=∑inWi⋅R(qi,d)Score(Q,...

2018-07-31 10:34:54 9442 6

原创 naive bayes 算法的Python实现与理解

在机器学习中，朴素贝叶斯算法对于大家来说其实并不陌生，在我前面的博客中，我也对朴素贝叶斯算法的原理有所介绍，这篇文章我们一起来学习如何用Python来实现这个朴素贝叶斯算法。...

2018-07-28 11:02:39 2723 2

原创对语言模型N-gram的理解

今天我们一起来学习一下语言模型N-gram，首先我们来用数学的方法来描述一下语言的规律，这个数学模型就是我们在自然语言处理中的统计语言模型（Statistical Language Model）。在自然语言处理中，所谓的一个句子是否合理通顺，就看这个句子的可能性，这里的可能性就要用概率来衡量。同一种意思的句子，不同种的表达形式，哪种形式出现的概率最大，那么就表示这个句子是最合理的。在每一个句子...

2018-07-24 16:27:37 1084

原创对PageRank算法的理解

顾名思义，PageRank其实就是网页排名的意思，当我们现在在一个搜索引擎搜索一个关键词的时候，搜索引擎如何将我们最想得到的信息放在前面呢，这里就涉及到了网页的排名，在我们日常的搜索中，除了商业上的竞价排名，总的来说，一个特定的网页搜索取决于网页的质量信息和这个查询与每个网页的相关性信息。在互联网上，一个网页被很多其他网页所链接，那么就说明这个网页受到普遍的承认和信赖，那么这个网页的排名就应该高，...

2018-07-21 11:59:50 978 2

原创 XGBoost 分类模型的Python实现

今天我们一起来学习一下如何用Python来实现XGBoost分类，这个是一个监督学习的过程，首先我们需要导入两个Python库：import xgboost as xgbfrom sklearn.metrics import accuracy_score这里的accuracy_score是用来计算分类的正确率的。我们这个分类是通过蘑菇的若干属性来判断蘑菇是否有毒的分类，我们来看看数据...

2018-07-19 17:33:23 13286 6

原创爱情中的决策树和贝叶斯

昨天看到一篇文章情人的加分扣分，请遵守贝氏定理，看完觉得写得真心不错，就和同事聊起来了，说现在找男朋友都可以画决策树了，于是我随意发了一张找男朋友的决策树给同事：于是我说：“现在找女朋友真的很扎心啊，年龄大于30岁的话，机会都没有了。”，当然这是一句开玩笑的话，也并不代表我的择偶观，也不代表每一个人的择偶观，相信每一个人的心中都会有自己的一颗决策树，关于如何选择决策树分裂的属性我在前几篇博文中...

2018-07-17 18:27:33 5117 2

原创 TensorFlow做图片的预处理

今天我们来一起学习一下如何用TensorFlow来处理图片，其实这个也很简单，主要就是做图片旋转，亮度色彩对比度的调整，还有就是裁剪等一系列处理。首先我们导入要用的Python库：import tensorflow as tfimport matplotlib.pyplot as plt我们用的是一张喵的图片，原图如下： ...

2018-07-17 10:14:29 1920

原创决策树---CART算法的理解

前面两篇博文我们介绍了一下决策树的ID3和C4.5算法，现在我们一起来看看CART算法吧，CART是英文Classification And Regression Tree的缩写，也就是分类回归树，顾名思义，CART可以用作分类也可以用作回归。比如说拿前两篇博文中的股票数据来说，我们可以构建CART决策树来预测明日股票的涨跌，这是分类；也可以通过CART决策树预测明日股票的涨跌幅度，这是回归。所以...

2018-07-13 15:04:16 1022

原创决策树---C4.5算法的理解

在上一篇博文中，我们一起学习了决策树中的ID3算法，知道了如何选择决策树分裂的属性。但是我们细心一想，在ID3算法中仍然有几方面的不足： 1. 在ID3算法当中,选择分裂的属性的时候，依据是信息增益，其实信息增益用作分裂的依据并不如信息增益率（information gain ratio）。 2. ID3算法不能对连续的数据进行处理，只能将连续的数据离散化处理。 3. ID3算法并没有...

2018-07-11 16:29:30 916

原创决策树---ID3算法的理解

ID3（Iterative Dichotomiser 3）算法是由罗斯昆（J. Ross Quinlan）于1975年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”（information entropy）。这个算法是通过计算出每个属性的信息增益，来选取信息增益（information gain）最高的属性来作为决策树划分的属性和标准。为什么要选取信息增益最高的属性来划分，我们来看一下下...

2018-07-10 17:07:02 1851

原创基于协同过滤算法使用Tensorflow构建一套电影推荐系统

现在在互联网的时代，你会发现有很多智能的推荐系统，比如说商品的推荐，歌曲的推荐，电影的推荐。在推荐系统中，协同过滤算法是诞生最早的，也是很常用的推荐算法。有句古话：物以类聚，人以群分。推荐算法的思想就是找到和你相似的人，也就是口味相同的人，把他喜欢的物品或者电影歌曲推荐给你；或者是将你买过的或者喜欢的物品，电影或者歌曲推荐给你；还有就是可能将你搜索过的物品、电影或者歌曲推荐给你；还有可能就是综合上...

2018-07-07 17:02:57 13140 73

原创对TF-IDF的理解与数学推导

TF-IDF的相关计算百度百科中，TF-IDF（term frequency–inverse document frequency）的解释是一种用于信息检索与数据挖掘的常用加权技术。所以总的来说，TF-IDF是一种统计方法，并且字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。这句话，我们后续来解释它的道理。这篇博文主要参考了吴军博士的经典之作《数学...

2018-07-03 15:05:26 2019

深圳湾刘能的博客