- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 NLP 自然语言处理原理与实践 笔记
一 、语义语义(semantic)指信息(数据)的意义,放到通信领域,可以理解为编码的意义,具体到自然语言中,就是词的意义和句子的意义。什么是意义本身呢?为什么会形成这些意义,或者说意义又是如何在人的大脑中组织起来的呢?范畴化:不属于任何范畴的语义是不存在的。客观事物在人的头脑中形成的信息不是相互独立的,而是普遍联系的,随着对客观世界认识的不断丰富,逐渐形成一个网络。类和实例。...
2019-05-20 13:45:52 186
原创 《计算广告》笔记
1 VSM 空间向量模型 用于信息检索在离线索引阶段,需要对文档集合分词,并按照 BoW 模型表示得到每个文档的 TF-IDF 矢量,对分词后的文档集合建立倒排索引。当在线的查询到来时,也进行分词,从倒排索引中查出所有符合要求的文档候选,并对其中的每个候选评价其与查询的余弦距离,按距离由小到大进行排序。这样的一个基本框架也适用于广告这一大规摸数据挖掘问题。虽然 VSM 不是实际系统中对检索候...
2019-05-13 10:17:37 298
原创 倒排索引
倒排索引(inverted index)是现代搜索引擎的核心技术之一,其核心目的是将从大量文档中查找包含某些词的文档集合这一任务用 O(1)或 O(log n)的时间复杂度[2]完成,其中 n 为索引中的文档数目。也就是说,利用倒排索引技术,可以实现与文档集大小基本无关的检索复杂度,这一点对于海量内容的检索来说至关重要。...
2019-05-13 09:21:41 1333
原创 python 数据类型之 列表
1 对列表进行排序后返回其索引# 默认是正序排列,改为True,倒序排列[i for i,v in sorted(enumerate(['Vincent', 'Alex', 'Bill', 'Matthew']), key=lambda x:x[1],reverse=True)]...
2019-05-10 14:57:59 101
原创 python 模块之 os
1 path.basename(),返回path最后的文件名。若path以/或\结尾,那么就会返回空值。path='D:\CSDN'os.path.basename(path)=CSDN2 / ./ ../ 等的用法 :https://blog.csdn.net/baidu_41878679/article/details/82770461...
2019-05-08 15:05:22 93
原创 一个推荐系统的实现
一个Kaggle题目 https://www.kaggle.com/c/kddcup2012-track1?tdsourcetag=s_pcqq_aiomsg一、数据集2220895个用户 + 6095 Item 73209277个训练样本,34910937个测试样本a) 训练集 rec_log_train.txt : UserId-ItemId-Result(1or-1)-ti...
2019-05-06 11:52:34 876
转载 DeepFM 参数理解(二)
原文: https://www.sohu.com/a/251772910_633698什么是CTR预估CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数除以广告的展现量。CTR是衡量互联网广告效果的一项重要指标。CTR预估数据特点:输入中包含类...
2019-05-05 17:52:58 6177 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人