搜索引擎
Shallow_Carl
Never Give Up!
展开
-
遍历列表的两种常见方式
for _ in list_new: print(_)第一种:for循环遍历每一个元素第二种:使用index索引访问for index in range(len(list_new)): print(list_new[index])注意index索引是从0~n-1的!原创 2021-10-28 16:13:46 · 3606 阅读 · 0 评论 -
Python从控制台输入任意多数字
1)我们先使用input函数将数据储存到字符串中2)将数据使用split分割3)将列表内部的字符串转化为int,使用map函数映射生成一个迭代器对象4)循环访问内部元素,即可list=[]str= input('输入任意多个字符,使用空格分割:')list=str.split(' ')list=map(int,list) #获得一个指向头部的迭代器for _ in list: print(_)可以作为一个模板使用...原创 2021-10-28 15:41:14 · 2371 阅读 · 0 评论 -
python从控制台输入任意多个数字
学习了Python相关数据类型,函数的知识后,利用字符串的分割实现了输入任意多个数据,并计算其平均值的小程序。思路是接收输入的字符串,以空格为分隔符,将分割的数据存入列表(lst1)中,将lst1中的数据转存入另一个空列表(lst)中,转存时将字符串转化为整型,从而利用函数求出lst中数的和、平均值,是Python基础(5)中结尾程序的升级版。代码如下:print("-----求平均值,可输入任意多个数-------")lst = [] #定义一个空列表str = raw_input("请输转载 2021-10-28 15:28:44 · 4106 阅读 · 1 评论 -
搜索引擎索引-第一节索引基础
单词-文档索引横向看,哪些文档有这个词汇,纵向看,这个文档有哪些词汇搜索引擎的实质就是实现这样的一种概念模型,比如倒排序,签名文件,后缀树,但是倒排序据实验表明是最优的.倒排序基本概念前置概念:文档:HTML+WORD+PDF+XML等都可以叫做文档文档编号:搜索引擎内部会给每个文档设置一个唯一的文档编号单词编号:搜索引擎内部会给每一个单词设置一个唯一的单词编号单词词典:文档集合中出现过的单词构成的字符串集合,每条索引项记载单词本身的一些信息以及指向倒排列表的指针.倒原创 2021-10-27 20:42:49 · 142 阅读 · 0 评论 -
资源分享--图标获取
我们在做项目时往往会和前端代码打交道,一般需要各种各样的图标,那我们有什么好的途径会搜集图标呢?一直百度是不现实的.你需要Iconfont链接:https://www.iconfont.cn/illustrations/index?spm=a313x.7781069.1998910419.3...原创 2021-10-24 11:22:53 · 109 阅读 · 0 评论 -
网页模板资源
比如说我们已经爬取好了数据,现在要将数据通过后端传递给前端,但是我们自己又不想花很多时间去写,怎么办呢?简单啊!网上有写好的免费的静态模板资源,我们可以白嫖!!!以下为链接:http://www.cssmoban.com...原创 2021-10-23 19:05:38 · 66 阅读 · 0 评论 -
爬虫操作第三节-保存数据
我们需要将数据保存到SQLite中,但是问题是我们保存的数据中含有numeric类型,但是拼接字符串的这个过程只允许说全部都是字符串的形式才能拼接.def init_db(dbpath): sql = ''' create table movie250 ( id INTEGER primary key autoincrement, info_link text, pic_link text,原创 2021-10-23 18:56:18 · 608 阅读 · 0 评论 -
Python变量和函数常用命名规范
常量定义在最开头,仅次于import语句,单词要求全部大写,单词和单词之间使用下划线分割一般变量遵循大驼峰规则或者是小驼峰规则函数函数名应该小写,同时为了保持良好的可读性,单词和单词之间应该使用下划线隔开...原创 2021-10-23 08:55:57 · 714 阅读 · 0 评论 -
爬虫操作第二节-数据解析
上一节博客直达!我们在经过了获取网页的这一步操作之后,接下来就是对于数据的解析.我们需要先熟悉一下正则表达式的基本操作,这里提供教程入口,没有知识储备的同学可以先去这个通道看一下正则表达式大家可以只看最简单的"语法"一节好,假设大家都已经基本熟悉了正则表达式地基本语法.那我们开始这一节的学习!先上代码中的正则表达式代码:#查找链接findLink=re.compile(r'<a href="(.*?)">')#查找图片findImage=re.compile原创 2021-10-20 16:15:21 · 417 阅读 · 0 评论 -
爬虫操作第一节-爬取网页的实现
既然我们前面学习了概念,那么就一定要动手实践,因为光说不做假把式嘛~我们爬取的网页以豆瓣电影Top250为例(别问,问就是刚好老师讲的就是...)爬取的操作一共分成三大部分:1)爬取网页2)信息提取3)信息保存我们今天先学习爬取网页的操作:1)访问URL我们可以看到,我们需要先生成一个list列表,保存浏览器的头部信息,不然的话我们这样不经过任何伪装,豆瓣是不会给我们资源的(因为我们的快速访问也占用了豆瓣服务器的大量资源,这在运营方看来是不可接受的)2)伪装所以,我们原创 2021-10-20 12:02:13 · 520 阅读 · 0 评论 -
分布式爬虫
目录分布式爬虫主从式分布爬虫对等式爬虫分布式爬虫三个层级分布式数据中心,分布式抓取服务器,分布式爬虫程序每个数据中心又由多台高速网络连接的抓取服务器构成,而每台服 务器又可以部署多个爬虫程序。通过多层级的分布式爬虫体系,才可能 保证抓取数据的及时性和全面性。主从式分布爬虫对于主从式分布爬虫,不同的服务器承担不同的角色分工(参考图 2-15),其中有一台专门负责对其他服务器提供URL分发服务,其他机 器则进行实际的网页下载。URL服务器维护待抓取URL队列,并从中获..原创 2021-10-16 13:16:57 · 489 阅读 · 0 评论 -
网页更新策略
目录网页更新策略历史参考策略用户体验策略聚类抽样策略网页更新策略网页更新策略的任务是要决定何时重新抓取之前已经下载过的网 页,以尽可能使得本地下载网页和互联网原始页面内容保持一致。常用 的网页更新策略有3种:历史参考策略、用户体验策略和聚类抽样策略。历史参考策略建立的假设基础:过去频繁发生变化的网页将来也会频繁更新.这种方法往往利用泊松过程来对网页的变化进行建模,根据每个网 页过去的变动情况,利用模型预测将来何时内容会再次发生变化,以此 来指导爬虫的抓取过程。但是不同方法原创 2021-10-16 13:15:31 · 3015 阅读 · 0 评论 -
爬虫抓取策略
目录抓取策略宽度优先策略非完全PageRank策略(争议很大,未必比宽度优先好.故而了解即可)OCIP策略(Online Page Importance Computation)大站优先策略抓取策略最简单的一种:按照队列顺序,当前下载网页的URL地址加入到队列的尾部,以此类推.但是这样做往往不太理想,我们的目标是优先抓取最重要的网页.下面介绍四种比较好的解决策略:宽度优先遍历策略,非完全PageRank策略,OCIP策略,大站优先策略1)宽度优先遍历策略2)非完全..原创 2021-10-16 13:14:16 · 1166 阅读 · 0 评论 -
搜索引擎篇---网络爬虫学习
前言本文沿袭上文的架构逻辑,这一节总结网络爬虫的相关基础知识.通用爬虫框架图2-1所示是一个通用的爬虫框架流程。首先从互联网页面中精心 选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子 URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,并将 URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。然后 将其和网页相对路径名称交给网页下载器,网页下载器负责页面内容的 下载。对于下载到本地的网页,一方面将其存储到页面库中,等待建立 索引等后续处理;另一方面将下载网页原创 2021-10-16 13:12:49 · 1812 阅读 · 0 评论 -
搜索引擎概论
目录搜素引擎的三个目标搜索引擎的三个核心问题:搜索引擎的技术架构搜素引擎的三个目标1)更全:所谓“更全”,是从其索引的网页数量而言的,目前任意一个商业搜 索引擎索引网页的覆盖范围都只占了互联网页面的一部分,可以通过提 高网络爬虫相关技术来达到此目标2)更快:“更快”这个目标则贯穿于搜索引擎的大多数技术方向,比如索引相 关技术、缓存等技术的提出都是直接为了达到此目的。而其他很多技术 也间接为此服务,即使是分布式海量云存储平台,也是为了能够处理海 量的网页数据,以达到对“更全”和“更原创 2021-10-15 16:59:56 · 355 阅读 · 0 评论