![](https://img-blog.csdnimg.cn/20200423113441222.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
网络信息检索
IR系统渐进式学习
Ordinary_yfz
知乎个人主页zhihu.com/people/zyf-98-4,现在涉及CV,transfer learning,unsupervised,GAN,REID,OOL很多研究方向,会经常写一些综述/论文阅读笔记。
展开
-
if __name__ == '__main__' 的正确理解
在大多数编排得好一点的脚本或者程序里面都有这段if name == ‘main’: ,虽然一直知道他的作用,但是一直比较模糊,收集资料详细理解之后与大家分享。1、这段代码的功能一个python的文件有两种使用的方法,第一是直接作为脚本执行,第二是import到其他的python脚本中被调用(模块重用)执行。因此if name == ‘main’: 的作用就是控制这两种情况执行代码的过程,在i...转载 2020-05-04 18:54:00 · 240 阅读 · 0 评论 -
网络信息检索(九)文本分类与文本聚类
文章目录一、文本分类和聚类概述1:文本分类概述2:文本聚类概述二、文本分类1:分类的学习算法2:使用相关反馈(Rocchio)3:最近邻学习算法4:贝叶斯理论三、文本聚类1:K-Means一、文本分类和聚类概述1:文本分类概述文本分类的定义\color{red}\textbf{文本分类的定义}文本分类的定义文本分类(Text Categorization/Classification)...原创 2020-04-29 16:19:45 · 3412 阅读 · 0 评论 -
网络信息检索(七)搜素引擎体系结构与排序算法
文章目录一、搜索引擎体系结构1:搜索引擎的性质与软件体系结构2:大规模搜索引擎—Google3:早期体系结构--中小型搜索引擎(1)采集数据(2)建立索引(3)提供检索服务(4)数据结构(5)Google检索算法(1)单个检索词的查询排序(2)多个检索词的查询排序(3)扩展性与关键的优化技术4:现代体系结构--超大型搜索引擎二、排序算法-高度保密的部分1:Lucene(1)简介与典型应用(2)得分...原创 2020-04-22 16:30:57 · 1842 阅读 · 2 评论 -
网络信息检索(七)搜素引擎简介与链接分析算法
IR系统最为关键的部分。文章目录一、搜索引擎简介1:什么是搜索引擎(1)工作原理(2)系统流程2:搜索引擎分类(1)目录式搜索引擎(2)机器人搜索引擎(3)元搜索引擎二、链接分析技术1:什么是链接分析?2:基于链接分析的排序算法*(1)PageRank (Google)(i)PageRank算法基本思想(ii)如何计算 PageRank?(iii)计算实例(iv)结果分析(v)PageRank ...原创 2020-04-15 17:11:48 · 1452 阅读 · 0 评论 -
网络信息检索(六)检索评价
文章目录一、 为什么要进行检索评价?评价的重要性评价检索系统的困难IR的评价指标二、 检索评价指标基于集合的有效性测度查准率与查全率如何评测结果?插值需要考虑的几个问题其他多种重要指标单一指标:F指标(F-Measure)E 指标(参数化的 F 值)R- 查准率平均正确率APMAP (Mean Average Precision )其他单一测度目前使用很广非常流行的评价因子:面向用户的相关测度三、...原创 2020-04-08 15:32:54 · 2266 阅读 · 0 评论 -
爬虫常用正则表达式匹配规则~
邮箱\w+[@][a-zA-Z0-9_]+(\.[a-zA-Z0-9_]+)+<a>标签的img属性<img[\w\W]*?src=["|']?([\w\W]*?)(jpg|png)[\w\W]*?/><a>标签的href属性href="(http[s]*://[\w\./]+)"原创 2020-04-06 16:34:46 · 676 阅读 · 0 评论 -
python多线程使用:让你的程序快人一步
文章目录一、进程与线程基本概念二、进程与线程的基本实现1:基本的单线程程序2:简单的多进程程序3:基本的多线程程序4:进程池与线程池一、进程与线程基本概念计算机的核心是CPU,他承担了所有的计算任务,就像是一座工厂,时刻在运行。假设工厂的电力有限,一次只能给一个车间供电,也就是说,一个车间开工的时候,其他车间都必须停工,背后的含义就是,单个CPU一次只能运行一个任务。进程就好比工厂中的车...原创 2020-04-05 14:54:55 · 230 阅读 · 0 评论 -
看完这个系列所有爬虫都easy!(三)超神器:Re正则模块深度学习
什么是正则表达式?re模块的重要函数,正则表达式的定义和规则,转义字符,特殊字符,常用实例:,正则表达式匹配邮箱,正则模式,爬虫实例:原创 2020-04-04 23:15:54 · 389 阅读 · 0 评论 -
看完这个系列所有爬虫都easy!(二)Xpath+bs4双剑合璧
文章目录一、XPath1.常用规则与安装2.XPath节点3.使用实例4.实战:爬取自己博客的所有标题,阅读量一、XPathXPath 全称 XML Path Language,即 XML 路径语言,它是一门 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索。w3c官方教程1.常用规则与安装XPath常用规则给出一个实例://...原创 2020-04-03 12:36:12 · 410 阅读 · 0 评论 -
看完这个系列所有爬虫都easy!(一)爬虫介绍与request库使用
文章目录1:爬虫的流程介绍2:Request的基本使用1. request()方法的参数说明2. Response对象的属性和方法3.request的请求头详解4.post请求与json对象的接受1:爬虫的流程介绍确认需求:你需要什么东西?你需要美女的图片寻找需求:哪里能找到你想要的东西?百度图库发送请求:发送访问页面的请求,获取页面的源代码。解析数据:从冗杂的源代码当中提取我们需要的...原创 2020-04-02 23:47:09 · 1073 阅读 · 1 评论 -
初识python爬虫:5分钟爬取博客的全部信息
爬取网站的步骤:设定爬取目标目标网站:我自己的博客, https://blog.csdn.net/csyifanZhang/article/list/1目标数据:所有博客文章的 - 链接、标题、标签分析目标网站待爬取页面:https://blog.csdn.net/csyifanZhang/article/list/1 ~ https://blog.csdn.net/csyifanZh...原创 2020-04-02 21:07:26 · 454 阅读 · 0 评论 -
网络信息检索(五)查询处理:查询方式+查询操作
文章目录一、查询方式1:基于关键词的查询(1)布尔查询(2)短语查询(3)近邻查询:短语查询扩展2:结构查询3:容错查询(Tolerant Retrieval)(1)模式匹配(2)拼写检查二、查询操作1:相关反馈(1)相关反馈的过程(2)为什么使用相关反馈?(3)更新查询:三种经典方法(4)计算实例(5)显式相关反馈的优缺点(6)总结2:查询扩展(1)为什么要查询重构?(2)查询扩展的方法A:人工...原创 2020-04-01 16:43:12 · 2608 阅读 · 0 评论 -
Python矩阵/向量运算:转置,求逆,svd分解,余弦相似度
文章目录矩阵转置np.transpose(a)矩阵求逆 S**-1奇异值分解 SVD余弦相似度矩阵转置np.transpose(a)import numpy as npa= [0.26,0,0.52,0,0,0,0,0,0,0,0]np.transpose(a)np.shape(np.transpose(a))矩阵求逆 S**-1S = np.mat([[2.59,0], ...原创 2020-03-26 11:45:39 · 1838 阅读 · 0 评论 -
网络信息检索(四)文本处理与索引
文章目录一、文本特性1:文本的统计特性-zipf定律2:词汇表的变化规律-Heaps定律二、文本操作1:文本预处理(1)文本预处理的时机(2)文本预处理的步骤2:词汇分析(1)英文词法分析(2)中文分词技术3:排除停用词4:词干提取三、文本索引1:索引在IR系统的位置(1)为什么需要索引(2)什么样的数据结构是合适的?前向索引?2:倒排索引的思想(1)**词汇表结构**(2)**事件表的内容**(...原创 2020-03-25 16:31:50 · 1670 阅读 · 0 评论 -
网络信息检索(三)Web信息搜集
文章目录一、Web简介1、Web三要素(1)HTML的基本结构(2)资源标识符(3)传输协议HTTP/HTTPS(i)常用方法(ii)HTTP响应状态码2、Web文档3、入度和出度3、Web文档的统计特征(1)幂律分布(Power Law)(2)蝴蝶结结构(Bow Tie Structure)(3)小世界(Small World)二、网络信息搜集的基本原理1、如何提取新的链接--HTML解析,链接...原创 2020-03-18 16:27:57 · 2514 阅读 · 0 评论 -
网络信息检索(二)扩展检索模型
文章结构总览布尔模型扩展(1)模糊集合模型① 查询词扩展(2)扩展布尔模型3.向量空间模型扩展(1)广义向量空间模型(2)潜语义索引模型(3)词向量4.概率模型的扩展(1)语言模型总览布尔模型扩展需要改进的地方:完全匹配和无结果排序的问题(1)模糊集合模型对布尔模型而言,一个词和文档的关系只有0或者1,但是相近的词呢?引入词对文档的隶属度的概念(80%包含,50%包含etc。)如何定义...原创 2020-03-11 16:32:33 · 3005 阅读 · 1 评论 -
网络信息检索(一)检索模型:布尔,向量,概率检索
一、基本概念1.为什么要建模?模型是一个过程或者对象的抽象,用于研究属性、得出结论、做出预测。结论的质量依赖于模型表示现实的相近程度结论的质量依赖于模型表示现实的相近程度,如机器人2.什么是检索模型IR的核心问题:预测哪些文档是相关的,哪些文档是不相关的。主要工作在于排序这个核心的问题,如何计算这个排序从而处理文档的相关性。检索模型描述了如下这些细节文档表示( Docume...原创 2020-03-04 16:51:53 · 7337 阅读 · 1 评论