自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 NLP实践-中文预训练模型泛化能力挑战赛Task01

NLP实践-中文预训练模型泛化能力挑战赛Task01Docker的使用Docker用于打包应用以及依赖包到一个轻量级、可移植的容器中。实现了类似虚拟化的功能Docker容器通过Docker镜像来创建。两者的关系类似于面向对象编程的对象与类。Docker面向对象容器对象镜像类docker pull registry.cn-shanghai.aliyuncs.com/tcc-public/python:3作用:下载基础镜像,可在此基础镜像的基础上构建新的镜像。

2021-02-20 15:08:16 277

原创 知识图谱Task01(Datawhale)

知识图谱的定义学术角度:语义网络(Semantic Network)的知识库应用角度:多关系图(Multi-relational Graph) ----包含多种类型节点和多种类型边知识图谱中的重要概念:Schema用于限定待加入知识图谱数据的格式。DataType:限定知识图谱节点值的类型Thing:限定节点的类型及属性[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-orN6Dnlw-1610418915025)(https://typora-upic-13041

2021-01-12 10:36:50 312

原创 【阅读笔记】《信息检索导论》第四章索引构建

【阅读笔记】《信息检索导论》第四章 索引构建基于块的排序索引方法BSBI算法(blocked sort-based indexing)内存式单遍扫描索引构建方法SPIMI 算法(single-pass in-memory indexing)分布式索引构建方法MapReduce-基于词项分割动态索引构建方法主索引+辅助索引索引的合并周期性地对文档集进行重构其他索引类型基于块的排序索引方法-面向静态文档集的高效单机索引算法Motivation:第一章中提出的倒排索引构建方法,对于小规模文档集来说,均可在内

2020-11-11 12:54:09 538

原创 【阅读笔记】《信息检索导论》第二十一章 链接分析

【阅读笔记】《信息检索导论》第二十一章 链接分析Web图PageRnak马尔科夫链PageRank的计算面向主题的PageRankHub网页及AuthorityWeb子集的选择Web图问题:网页本身携带的词项和用户描述同一网页的词项之间往往存在着一定的差异。解决办法:利用指向目标网页的链接的锚文本中的词项作为索引目标网页的词项。基于词频或基于机器学习的评分方法来给词项赋予权重。注:锚文本周围窗口中的文本也可当成锚文本来使用。PageRnak基于链接结构的评分和排序方法。PageRank值

2020-10-12 17:22:16 559

原创 【阅读笔记】《信息检索导论》第三章 词典及容错检索

【阅读笔记】《信息检索导论》第三章 词典及容错检索词典搜索的数据结构通配符查询一般的通配符查询轮排索引支持通配符查询的k-gram索引拼写校正词项独立(isolated-term)的校正编辑距离拼写校正中的k-gram索引上下文敏感(context-sensitive)的校正基于语音的校正技术词典搜索的数据结构哈希表弊端:查询词项稍有变化,哈希函数会生成截然不同的结果,故难以处理词项存在轻微变形的情况(如前缀式查询)搜索树1、二叉树2、B树采用B树,允许内部节点的子树数目在某个固定区间内变

2020-10-12 01:13:14 558

原创 【阅读笔记】《信息检索导论》第二章 词项词典及倒排记录表

【阅读笔记】《信息检索导论》第二章 词项词典及倒排记录表文档分析及编码转换词项集合的确定文档分析及编码转换1、判断文档的编码方式(ASCII,UTF-8等),将字节序列转换成线性的字符序列2、确定文档的索引单位(索引粒度问题indexing granularity)注:索引粒度太小,词项散布在多个细粒度文档中,错过重要段落,导致正确率高而召回率第。索引粒度太大,不相关的匹配结果太多,导致正确率低召回率高。词项集合的确定...

2020-10-11 21:55:40 531

原创 【阅读笔记】《信息检索导论》第一章 布尔检索

《信息检索导论》第一章 布尔检索信息检索布尔检索模型词项-文档关联矩阵(incidence matrix)倒排索引欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入信息检索定义:信息检索是从大

2020-10-08 16:03:08 835

原创 LeetCode 893. Groups of Special-Equivalent Strings 特殊等价字符串组 (multiset)

@[TOC](893. Groups of Special-Equivalent Strings 特殊等价字符串组 (multiset))#题目描述解题思路等价字符串的定义是:对一个字符串a中下标为偶数的字符间进行若干次交换、下标为奇数的字符间进行若干次交换,交换后的结果等于字符串组中的另一个字符串,那么a与b等价。通过分析,只要a的奇子列中包含的字符与b的奇子列中的字符相同,偶子列中包...

2019-06-24 17:21:32 120

原创 LeetCode 983. Minimum Cost For Tickets车票的最小花费(DP)

@[TOC](LeetCode 983. Minimum Cost For Tickets车票的最小花费(DP))题目描述解题思路这与典型的背包问题十分相似,可以把题目中旅行的天数days看作是背包的总容量,把票看作是装入背包的物品,票价代表物品价值,票的有效期代表物品重量。记F[i]为总票价,i为日期,F[0]=0。为了便于使用动态规划算法,可以将不出行的日子也填满,则不出行那天的F...

2019-06-21 16:22:47 237

原创 LeetCode540. Single Element in a Sorted Array有序数组中的单一数(二分查找)

LeetCode540. Single Element in a Sorted Array有序数组中的单一数(二分查找)题目描述题目思路代码题目描述题目思路单一数数组有一条隐含的性质,那就是其元素个数一定为奇数个,结合这一性质根据题目要求时间复杂度为O(lgN),想到用二分查找。当范围缩小到三个数时,可以利用三个数的异或求得单一数。代码class Solution {public:...

2019-06-20 11:55:19 129

原创 LeetCode931. Minimum Falling Path Sum最小下降路径和(动态规划,深度优先搜索)

LeetCode931. Minimum Falling Path Sum最小下降路径和(动态规划,递归)题目描述思路一:动态规划思路二:深度优先搜索+记忆数组题目描述思路一:动态规划最小下降和问题要求从第一行(r=0)的任何一个数开始,在下一行中再取一个数,要求列数与上一行选择的数的列数相差不超过一。可以用动态规划的思想考虑这个问题,dp(r,c)为从A[r][c]这个数开始的最小下...

2019-06-13 16:24:56 172

原创 LeetCode889. Construct Binary Tree from Preorder and Postorder Traversal 根据前序和中序序列构造二叉树

LeetCode889 Construct Binary Tree from Preorder and Postorder Traversal 根据前序和中序序列构造二叉树题目描述思路代码题目描述思路题目要求用二叉树的前序序列和后序序列构造二叉树,利用前序遍历的后续遍历构造二叉树时,只有这棵树中没有度为1的节点时,才能唯一的确定这棵树,这是因为当存在度为1的节点时,只能确定它的所有子孙节...

2019-06-07 16:41:43 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除