自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 如何使用别人的github.io 博客模板

在搭建自己的github.io 博客的时候,如果我们想使用别人的模板而不是系统给定的主题。则需要开启写轮眼拷贝别人的博客。1、注册完成后搜索qiubaiying.github.io进入我的仓库2、点击右上角的Fork将我的仓库拉倒你的账号下3、创建repo当然,一切的前提是你得首先有个github的账户,这里还请自行解决。登陆你的账户后,你可以创建一个新的repo。请务必注意...

2019-10-25 16:44:36 4408

原创 BP算法记录

一文彻底搞懂BP算法:原理推导+数据演示+项目实战(上篇)一文彻底搞懂BP算法:原理推导+数据演示+项目实战(下篇)深度学习 --- BP算法详解(误差反向传播算法)非常详细的讲解了何为BP...

2019-10-22 15:13:32 259

原创 深度学习之RNN(循环神经网络)

对深度学习之RNN(循环神经网络)的理解。RNN网络存在三个矩阵在不同时刻权重共享,即从头到尾只需要计算这三个矩阵。U:输入层到隐层的矩阵V:隐层到输出层W:隐层到自身的矩阵二、反向传播RNN损失为各个时间点的损失之和,故各个梯度的变化为各个时间点梯度变化之和RNN语言模型为例子,损失函数使用交叉熵,其中yt为t时刻正确的词语,y^t为t时刻预测的词语。分别...

2019-10-22 13:37:52 236

原创 基于信息熵的分词及新词发现(三)基于天龙八部小说的新词发现

算法原理在一、二部分:一、基于信息熵的分词及新词发现(一) 信息熵的理解二、基于信息熵的分词及新词发现(二)统计学意义下的词语构成代码流程如下:1、读取天龙八部小说文档,并转换为Series 数据结构。Series是一个一维数组,是基于NumPy的ndarray结构。Pandas会默然用0到n-1来作为series的index,但也可以自己指定index(可以把index理解为di...

2019-10-21 14:15:35 678

原创 基于信息熵的分词及新词发现(二)统计学意义下的词语构成

要想从一段文本中抽出词来,我们的第一个问题就是,怎样的文本片段才算一个词?1、出现频数超过某个阈值的片段,作为该语料中的词汇输出。片段长度为为超参数。2、光是出现频数高还不够,一个经常出现的文本片段有可能不是一个词,而是多个词构成的词组。在人人网用户状态中,“的电影”出现了 389 次,“电影院”只出现了 175 次,然而我们却更倾向于把“电影院”当作一个词,因为直觉上看,“电影”和“院”...

2019-10-21 13:44:32 518

原创 基于信息熵的分词及新词发现(一) 信息熵的理解

“信息熵”是一个非常神奇的概念,它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为 p ,当你知道它确实发生了,你得到的信息量就被定义为 – log(p) 。 p 越小,你得到的信息量就越大。如果一颗骰子的六个面分别是 1 、 1 、 1 、 2 、 2 、 3 ,那么你知道了投掷的结果是 1 时可能并不会那么吃惊,它给你带来的信息量是 – log(1/2) ,...

2019-10-21 13:23:17 1674 1

原创 推荐系统中的NDCG

说到NDCG就需要从CG开始说起。CG(cumulative gain,累计增益)可以用于评价基于打分/评分的个性推荐系统。假设我们推荐k个物品,这个推荐列表的CGk计算公式如下:CGk=∑ikreliCG_k=\sum _i^k rel_iCGk​=i∑k​reli​.relirel_ireli​ 表示第kkk个物品的相关性或者评分。假设我们共推荐kkk个文档,relirel_ireli​...

2019-10-18 14:12:11 2557

原创 无重复字符的最长子串(leetcode-3)

给定一个字符串,请你找出其中不含有重复字符的最长子串的长度。示例1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。class Solution: def lengthOfLongestSubstring(self, s): """ :type s: str :...

2019-10-10 13:57:48 144

原创 NLP 之命名实体识别

对这个代码的理解:https://blog.csdn.net/buppt/article/details/81180361一.训练集数据格式19980101-01-001-004/m 12月/t 31日/t ,/w 美国白宫/nt 发言人/n 、/w 国家/n 总统/n 奥/nr 巴马/nr 发表/v 1998年/t 新年/t 讲话/n 《/w 迈向/v...

2019-10-09 09:31:16 1555

KDD Cup 2012 Track1 数据集

KDD Cup 2012 Track1 数据集。数据集包含了用户特征和Item特征。文件为百度云链接。可快速下载。

2019-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除