- 博客(41)
- 资源 (1)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Information Retrieval(信息检索)笔记07:Probabilistic Model & Language Model
Information Retrieval(信息检索)笔记07:Probabilistic Model & Language Model概率模型 (Probabilistic Model)概率排序原理 (Probability Ranking Principle, PRP)二值独立模型 (Binary Independence Model)Okapi BM25语言模型 (Language Model)目前为止,我们已经学习了简单的布尔检索模型和向量空间模型,现在我们来看一看概率模型 (Probab
2020-11-29 20:53:59
2743
3
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Information Retrieval(信息检索)笔记06:Evaluation(评价)
Information Retrieval(信息检索)笔记06:Evaluation(评价)无序检索结果集合的评价 (Unranked retrieval evaluation)有序检索结果的评价方法(Evaluating ranked results)正确率 - 召回率曲线(precision-recall curve)插值正确率 (Interpolated precision)MAP (Mean Average Precision )R-precision在之前的几篇笔记中,我们已经了解了 IR 系统
2020-11-28 19:01:11
2509
1
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Information Retrieval(信息检索)笔记05:文档评分、词项权重计算以及向量空间模型
Information Retrieval(信息检索)笔记05:文档评分、词项权重计算以及向量空间模型排名检索模型(Ranked retrieval models)Jaccard Coefficient (Jaccard 系数)Bag of words model(词袋模型)Term Frequency tf: Log-frequency weighting (对数频率加权)Document Frequency: IDF Weight (反文档频率权值)TF-IDF Weighting向量空间模型(Vect
2020-11-26 22:03:18
2877
5
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Information Retrieval(信息检索)笔记04:Compression
Information Retrieval(信息检索)笔记04:Compression信息检索中词项的统计特性Heaps' Law (Heaps 定律)Zipf's Law (Zipf 定律)词典压缩(Dcitionary Compression)倒排记录表压缩(Posting List Compression)在前面几节,我们已经学习了信息检索系统 (IR System) 中最重要的两个数据结构:词典 (Dictionary) 以及倒排索引 (Inverted Index),并且了解了如何去构建索引 (
2020-11-25 22:33:26
1714
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Information Retrieval(信息检索)笔记03:Index Construction
Information Retrieval(信息检索)笔记03:Index Construction硬件基础(Hardware Basics)基本的索引构建(Baisc Index Construction)基于哈希表的内存中索引构建(Hash based in-memory index construction)基于块的排序索引方法(BSBI - Blocked Sort-Based Indexing Algorithm)外部合并排序(External Merge-Sort)Phase 1Phase 2C
2020-10-24 15:20:03
1817
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 快速合并算法(补充):List Intersection
补充内容Galloping Search (Gambler’s Strategy)多词项联合查询(Multiple Term Conjunctive Queries)在之前的《Information Retrieval(信息检索)笔记01:Boolean Retrieval(布尔检索)》 中,我们已经对使用额外数据结构的快速合并算法:跳表指针 (Skip Pointer) 进行了介绍,这里我们会对这部分的内容进行一个补充。我们已经知道,跳表指针是一个需要额外数据结构的算法,但这不仅仅意味着它需要额外的
2020-10-04 13:29:46
1248
2
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Information Retrieval(信息检索)笔记02:Preprocessing and Tolerant Retrieval
Information Retrieval(信息检索)笔记02:Preprocessing and Tolerant Retrieval预处理(Preprocessing)文档分析及编码转换(Parsing a document)字符序列的生成文档单位的选择(Document Unit)词条与词项(Tokens And Terms)词条化(Tokenization)去除停用词(Stop words)词项归一化(Normalization to terms)词干还原和词形归并(Stemming and Lem
2020-09-27 14:27:15
2048
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Information Retrieval(信息检索)笔记01:Boolean Retrieval(布尔检索)
Information Retrieval(信息检索)笔记01:Boolean Retrieval(布尔检索)什么是信息检索(Information Retrieval)布尔检索(Boolean Retrieval)什么是布尔检索(Boolean Retrieval)?倒排索引(Inverted Index)布尔查询的处理查询优化(Query Optimization)什么是信息检索(Information Retrieval)正式定义上的信息检索(Information Retrieval)为:信息检
2020-08-29 14:06:10
5577
5
原创 推荐系统(Recommender System)笔记 06:推荐系统实例
推荐系统(Recommender System)06:推荐系统实例Facebook 的深度学习推荐系统Facebook 的推荐系统应用场景GBDT + LR 组合模型实时数据流框架降采样和模型校正DLRMAirbnb 基于 Embedding 的实时搜索推荐系统YouTube 深度学习视频推荐系统阿里巴巴深度学习推荐系统在本节中,我们将具体来看几家世界级的巨头公司对于推荐系统的应用实例Facebook 的深度学习推荐系统Facebook 于 2014 年提出了经典的 GBDT + LR 的 CTR 模
2021-09-27 10:03:49
956
原创 推荐系统(Recommender System)笔记 05:推荐系统的评估
推荐系统(Recommender System)05:推荐系统的评估离线评估方法与基本评价指标离线评估的主要方法Holdout 检验交叉验证 (Cross Validation)自助法 (Bootstrap)离线评估的指标准确率 (Accuracy)正确率 (Precision) 和召回率 (Recall)均方根误差 (RMSE)对数损失函数 (LogLoss)直接评估推荐序列的离线指标P-R 曲线ROC 曲线平均精度均值(mAP)更接近线上环挠的离线评估方法 - Replay动态离线评估方法Netflix
2021-09-16 10:59:51
755
原创 推荐系统(Recommender System)笔记 04:推荐系统工程实现
推荐系统(Recommender System)04:推荐系统工程实现推荐系统的数据流批处理大数据架构(Batch Processing)流计算大数据架构 (Streaming Processing)Lambda 架构Kappa 架构大数据平台与推荐系统的结合推荐模型的离线训练Spark MLlibParameter ServerTensorFlow推荐模型的上线部署预存 推荐/Embedding 结果自研模型线上服务平台训练 Embedding + 轻量级线上模型利用 PMML 转换并部署模型Tensor
2021-09-13 09:58:56
706
原创 推荐系统(Recommender System)笔记 03:推荐系统的重要思想
推荐系统(Recommender System)笔记 03:推荐系统的重要思想推荐系统的特征工程构建特征工程的原则推荐系统的常用特征用户行为数据用户关系数据属性、标签类数据内容类数据上下文信息统计类特征组合特征常用特征处理方法连续型 (continuous) 特征类别型 (categorical) 特征推荐系统召回层 (Recall) 的主要策略召回层 (recall) 和排序 (sort) 层的功能特点多路召回策略Embedding 召回策略推荐系统的实时性实时性对于推荐系统的重要性“特征” 的实时性1
2021-09-09 14:16:26
1138
原创 推荐系统(Recommender System)笔记 02:Embedding
推荐系统(Recommender System)笔记 02:Embedding什么是 Embedding?词向量Embedding 对于深度学习的重要性Word2vec训练过程“负采样”(Negative Sampling)Item2vec - Word2vec 在推荐系统中的推广Graph EmbeddingDeepWalkNode2vec同质性 (Homophily) 和结构性 (Structual Equivalence)切换 BFS 和 DFS 倾向性EGES - 综合性 Graph Embeddi
2021-09-02 13:10:54
610
原创 推荐系统(Recommender System)笔记 01:推荐系统的演化
推荐系统(Recommender System)01推荐系统的架构数据部分模型部分传统推荐模型协同推荐(Collaborative Filtering)矩阵分解(Matrix Factorization)逻辑回归(Logistic Regression)自动特征交叉的解决方案POLY2 模型 - 特征交叉的开始FM 模型 - 隐向量特征交叉FFM 模型 - 引入特征域* 从 POLY2 到 FFM 的演化过程GBDT + LR - 特征工程模型化GBDT 模型LS-PLM - 阿里曾经的主流推荐模型深度学习
2021-08-24 09:15:50
1943
原创 Java Programming Review 02
Java Review 02数字与静态静态方法首先我们需要明确为什么需要静态,静态和非静态之间有什么区别。Java 虽是面向对象的编程,但很多时候,我们需要的是的是常用的方法,而不需要类的实例。static 这个修饰符可以标记出不需要实例的方法。所以,一个静态的方法指的就是 “一种不依靠实例变量也就不需要对象的行为”。根据上方的对比,我们可以轻易地看出来静态方法与非静态方法在取用上方面的差异:静态方法:以类的名字调用静态的方法非静态方法:以引用变量的名称来调用非静态的方法至此,我们可以做
2021-08-22 17:39:41
137
原创 Java Programming Review 01
Java ReviewJava 的特性 write once run everywhere(一次书写,任何地方都可运行)。Java 的工作方式根据上图,我们可以知道,我们要做的就是编写源代码文件,用 javac 编译程序把文件编译 (Compile) 为在某个虚拟机上运行的字节码。Java 的程序结构需要明确源文件 (Source File),类 (Class) 和方法 (Method) 之间的关系。在 Java 中所有东西都会属于某个类。我们会建立源文件 (.java),然后将他编译为
2021-08-07 16:38:56
178
原创 DBMS Implementation 笔记 07: Concurrent control
DBMS Implementation 笔记 06: Concurrent controlTransaction ProcessingProperties of SchedulesTransaction IsolationSerializability (可序列化)Transaction Isolation LevelsConcurrency ControlLock-based Concurrency ControlOptimistic Concurrency Control (OCC)Multi-vers
2021-05-13 16:49:20
777
1
原创 DBMS Implementation 笔记 06: Query Evaluation
DBMS Implementation 笔记 06: Query EvaluationQuery ProcessingQuery TranslationParsing SQLExpression Rewriting RuleQuery OptimizationPostgreSQL Query OptimizationQuery Cost EstimationEstimating Projection Result SizeEstimating Selection Result SizeEstimating
2021-05-13 16:30:58
1254
原创 DBMS Implementation 笔记 05: SIMC & CATC 以及 Join 操作的实现
DBMS Implementation 笔记 05: SIMC & CATCSuperimposed Codewords (SIMC) - 叠加码字Query Cost for SIMCPage-level SIMCBit-sliced SIMCConcatenated Codewords (CATC) - 拼接码字Query Cost for CATCVariations on CATCJOIN ImplementationNested LoopSort-mergeHash-basedSimple
2021-05-13 15:50:30
907
原创 DBMS Implementation 笔记 04: Indexing
DBMS Implementation 笔记 04IndexingDense Primary IndexSparse Primary IndexSelection with Primary IndexInsertion with Primary IndexDeletion with Primary IndexClustering IndexSecondary IndexB-TreesB-Tree DepthSelection with B-TreesInsertion into B-TreesMulti-d
2021-05-11 17:23:12
1098
原创 DBMS Implementation 笔记 03: Operations with different file structure
DBMS Implementation 笔记 03Projection OperationWithout DISTINCTWith DISTINCTSort-based ProjectionHash-based ProjectionProjection on Primary KeyIndex-only ProjectionSelectionFile StructureHeap FileSelection in Heap FileInsertion in Heap FileDeletion in Heap F
2021-05-11 11:02:54
514
原创 DBMS Implementation 笔记 02: Representation and operations in PostgreSQL
DBMS Implementation 笔记 02Tuple RepresentationFixed-length RecordsVariable-length RecordsPostgreSQL TuplesRelational OperationsTuple Representation再次强调:一个数据库 (Database) 中的表格 (Relations/Tables) 用一个或多个数据文件 (Data File) ,每个文件由一系列 pages/blocks 组成,每个 page/block
2021-05-10 19:43:58
551
原创 DBMS Implementation 笔记 01: DBMS overview and storage management in PostgreSQL
DBMS Implementation 笔记 01DBMS OverviewPostgreSQLStorage ManagementBuffer Pool(缓存池)PostgreSQL Buffer ManagerPage InternalsPostgreSQL Page RepresentationTOAST = The Oversized-Attribute Storage Technique (超大属性存储技术)本篇课程主要围绕 DBMS 的底层实现和建立。至于常规的 SQL 语句和数据库其他相关操
2021-05-10 17:50:21
493
原创 Advanced Topics in Statistical Machine Learning 笔记07:Markov Networks
Advanced Topics in Statistical Machine Learning 笔记07:Markov Networks投票模拟(Voting)在这一节中,我们来了解马尔科夫网络 (Markov Networks)。首先,我们需要明确马尔科夫网络 (Markov Networks) 是什么。在第一篇笔记中,我们曾说过,马尔科夫网络 (Markov Networks) 和贝叶斯网络 (Bayesian Networks) 同属于概率图模型 (Probabilistic Graphic Mo
2021-01-17 13:40:30
360
原创 Advanced Topics in Statistical Machine Learning 笔记06:Markov Chains and Hidden Markov Models
Advanced Topics in Statistical Machine Learning 笔记06:Markov Chains and Hidden Markov Models马尔科夫链(Markov Chains)Mini-forward AlgorithmStationary DistributionsIrreducible Markov Chains(不可约马尔科夫链)Aperiodic Markov Chains(非周期性马尔科夫链)Markov chains Convergence(马尔科夫
2020-11-03 17:22:34
589
原创 Advanced Topics in Statistical Machine Learning 笔记05:Variable Elimination(变量消除)
Advanced Topics in Statistical Machine Learning 笔记05:Variable Elimination(变量消除)消除过程 (Process of Elimination)FactorsSumming outMultiply变量消除(Variable Elimination, VE)Prior Marginals (VE_PR1)消除顺序(Elimination Order)互动图(Interaction Graph)Min-degreeFill-inPoster
2020-11-01 22:05:17
1675
1
原创 Advanced Topics in Statistical Machine Learning 笔记04:Bayesian Networks as Classifiers
Advanced Topics in Statistical Machine Learning 笔记04:Bayesian Networks as Classifiers完备数据的分类(Classification of Complete Data)朴素贝叶斯分类器(Naive Bayes Classifier - NBC)参数估计(Parameter Estimation)树增强贝叶斯分类器(Tree-augmented Bayes Classifier)关于贝叶斯网络的学习在本节中,我们来看如何将 B
2020-10-31 12:50:04
397
1
原创 Advanced Topics in Statistical Machine Learning 笔记03:贝叶斯网络02(Bayesian Network02)
Advanced Topics in Statistical Machine Learning 笔记03:贝叶斯网络02(Bayesian Network02)查询处理(Query Processing)证据概率:Probability Of Evidence先验和后验边际:Prior and Posterior Marginals最大可能解释:Most Probable Explanation (MPE)最大后验假设:Maximum a Posteriori Hypothesis (MAP)具体情境专家I
2020-10-10 10:27:19
1104
1
原创 Advanced Topics in Statistical Machine Learning 笔记02:贝叶斯网络(Bayesian Network)
Advanced Topics in Statistical Machine Learning 笔记02:贝叶斯网络
2020-10-03 20:11:43
1937
1
原创 Advanced Topics in Statistical Machine Learning 笔记01
Advanced Topics in Statistical Machine Learning 笔记01Introduction to Probabilistic Graphical Models (PGMs)(概率图模型的简介)Monotonic Logic(单调逻辑)Degree of belief(信念度)Bayesian Networks(贝叶斯网络)Propositional Logic(命题逻辑)Worlds, Models and Events(世界,模型和事件)Variable Instan
2020-09-18 16:43:25
957
原创 Big Data Management笔记06:Recommender Systems
Big Data Management笔记06:Recommender SystemsRecommender System Model (RS Model)Gathering Ratings(收集评分)Predicting Ratings(预测评分)Content-based Recommendation(基于内容的推荐)User-user Collaborative Filtering(用户与用户的协同推荐)Finding “Similar” Users(找到同好)Rating Predictions(评
2020-08-23 13:31:09
768
原创 Big Data Management笔记05:Mining Data Streams
Big Data Management笔记05:Mining Data StreamsData Streams(数据流)Characteristics of Data Streams(数据流的特点)Massive Data Streams(海量数据流)Data Streams(数据流)Characteristics of Data Streams(数据流的特点)Massive Data Streams(海量数据流)...
2020-08-23 13:30:55
1584
原创 Big Data Management笔记04:SparkSQL和PySpark MLlib
Big Data Management笔记04:SparkSQL和PySpark MLlibSpark SQLDataframePySpark MLlibSpark SQL之所以去使用Spark SQL,是为了处理DataframePySpark MLlib
2020-08-23 13:30:38
402
原创 Big Data Management笔记03:High Dimensional Similarity Search
Big Data Management笔记03:High Dimensional Similarity SearchSimilarity Search(相似度搜索)Low Dimensional Similarity Search(低维相似度搜索)High Dimensional Similarity Search(高维相似度搜索)Similarity Search(相似度搜索)首先,我们要知道,什么是Similarity Search(相似度搜索)?相似度搜索指的是,给定一个数据集 D 和查询数据(
2020-08-23 13:29:04
670
原创 Big Data Management笔记02:MapReduce &Spark
Big Data Management笔记02:MapReduce &SparkMapReduceSparkMapReduceSpark
2020-08-23 13:28:44
590
原创 Big Data Management笔记01:Hadoop & HDFS
Big Data Management笔记01:Hadoop & HDFS
2020-08-23 13:28:09
844
1
原创 Big Data Management Framework
Big Data Management Framework1) Introduction to Big Data Management2) Hadoop and HDFS3) Spark and RDD4) MapReduce5) High Dimensional Similarity Search6) Spark SQL & PySpark MLlib7) Mining Data Streams8) Recommender System1) Introduction to Big Data Ma
2020-08-18 22:19:02
619
原创 Computer Vision笔记01:图像处理
Computer Vision笔记01:图像处理Part 1什么是图像处理(Image Processing)图像处理(Image Processing)的分类空间域处理(Spatial Operation)基本的灰度变换(Intensity Transformation)灰度反转(Intersity Inversion)对数变换(Log Transformation)幂律(伽马)变换(Power Transformation)分段线性变换(Piecewise Linear Transformations)
2020-06-13 18:43:33
1308
原创 CNN Tips 1
以手写数字识别为例,介绍TensorFlow框架实战。 从数据集读取、数据增强、卷积神经网络构建、超参数设置、模型训练、模型保存、验证集测试以及模型调优等, 完整再现深度学习实战的完整过程。 ...
2020-02-25 10:07:40
317
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人