尝试写个爬虫（2）

最新推荐文章于 2024-09-20 09:39:51 发布

lcygloria

最新推荐文章于 2024-09-20 09:39:51 发布

阅读量506

点赞数

分类专栏：网络编程文章标签：爬虫

本文链接：https://blog.csdn.net/lcygloria/article/details/10508809

版权

网络编程专栏收录该内容

5 篇文章 0 订阅

订阅专栏

爬虫的工作原理

我们的这个小爬虫主要是对应于搜索引擎的信息采集部分，即对目标网页的下载，分析存在的链接，并加入到新的收集队列中。

主要技术

关键在于网页下载，涉及到套接字与应用层协议编程。

网页下载的基本流程是：

1.获得URL，解析出主机，端口以及资源路径；

2.调用DNS解析程序，将URL转换成ip地址；

3.建立与目标服务器的tcp连接，并构造http请求报文，请求下载目标网页；

4.循环获得服务器端的返回信息，并保存到本地。

DNS（域名系统）

用于网络资源的命名管理，将Internet上的域名与真实的ip地址进行一对一或一对多的映射，用户可以通过输入域名信息，查询DNS服务器，获得真实的ip。

hostent* gethostbyname(const char* strURL);

struct hostent 通过h_addr字段存储解析成功后的ip地址。

注意后面补上这段代码和测试结果。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lcygloria

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python的一些练习凯撒密码、3位水仙花数计算等。

paul0926的博客

03-21

1887

1、给定一个list a, 满足a[i+1] >= a[i], 给定int key ,找出list a 中第一个大于等于key的元素的index，无满足要求的元素则返回-1。 import random #创造list def create_list(len_list): a = [] for i in range(0,len_list): b = rando...

用js写个爬虫

qingshandaijason的博客

04-30

6549

如何用js完成爬虫项目前言一、node.js的安装二、确定爬取网页三、查看分析网页源码四、开始写爬虫1、npm···2.读入数据总结二、使用步骤1.引入库2.读入数据总结功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入前言这是我

参与评论您还未登录，请先登录后发表或查看评论

平日疑问2016.9.13-

妈妈说不要造轮子

09-13

651

2016.9.13-java8环境变量与注册表安装JOSM需要java8的支持，安装完Java配置环境变量，配置正确，但是总是出现javac不是内部命令。肯定是环境变量有问题，但是前前后后检查很多遍，确保正确。最后改用绝对路径，只设置CLASSPATH和PATH，舍去javahome。最后运行正确。估计是java8的注册表问题（猜测）。有时间详细排查。

Python-类01（计算买票问题）

Python学习笔记

03-31

3259

#定义一个游乐场买票的类，成人平日票价100，儿童半价，周末为平日的120% class Ticket: def __init__(self,weekend=False,child=False): self.exp=100 if weekend: self.inc=1.2 else: self.i

按要求输出

weixin_30550271的博客

12-22

218

时间限制:1 Sec内存限制:128 MB 提交:1201解决:367 [提交][状态][讨论版] 题目描述编写一个C程序，输出以下信息： ************************** Very Good! ************************** 数＊号可看出，Very前面9空格，Good前面…… *也是输出...

定义一个游乐园门票的类

chaowanghn的博客

01-05

5873

要求：按照以下要求定义一个游乐园门票的类，并尝试计算2个成人+1个小孩平日票价。（1）平日票价100元（2）周末票价为平日的120% （3）儿童半票。# -*- coding: utf-8 -*-class Ticket: def __init__(self,time,adult_number,child_number): self.time=time

一个爬虫尝试.zip

01-19

URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的...

自写python爬虫壁纸软件

10-09

首先，我们要明白“自写Python爬虫壁纸软件”的核心在于两个部分：网络爬虫和用户界面。网络爬虫负责从互联网上抓取壁纸资源，用户界面则为用户提供友好的交互体验。 1. **网络爬虫**：在Python中，我们可以使用...

手把手教你写python爬虫

11-21

在“python_learn-main”这个目录中，可能包含了从基础爬虫到进阶爬虫的示例代码，你可以逐个研究，理解其工作原理，并尝试修改和优化。总的来说，Python爬虫涉及网络请求、HTML解析、反爬策略、数据存储等多个...

python爬虫-爬虫项目实战之知乎爬虫+断点续爬尝试.zip

03-07

在这个名为"python爬虫-爬虫项目实战之知乎爬虫+断点续爬尝试.zip"的压缩包中，包含了一个具体的实战项目，旨在教授如何利用Python编写爬虫来抓取和处理知乎网站上的数据，并实现断点续爬功能。下面将详细讲解这个...

Python 第十四天学习笔记

weixin_41151172的博客

04-14

1534

今天去面试数据分析师，遇见的是本科北交大硕士中科院学工业工程的同学。真的是压力山大。面试被问到了SQL。最近都不要投简历关注实习了，先充电，学完Python再学SQL。今天做第十一章类和对象的习题0.对象中的属性和方法，在编程中实际是什么？变量属性，函数方法1.类和对象是什么关系？对象是类的实例化，类是抽象的，对象是具体的2.如果我们定义了一个猫类，那你能想象出“猫”类实例化的对象有哪些？叮当猫，...

类和对象——面向对象编程

zss041962的博客

12-25

617

学习笔记： 0.按照以下要求定义一个游乐园门票的类，并计算2个大人+1个小孩平日票价。 ·平日票价100元 ·周末票价为平日的120% ·儿童半票参考答案： >>> class Tickets(): def __init__(self,weekend = False,child = False): self.original = 100

python尝试

GoSophie

12-21

642

#python range: >>> list=[9,2,4,5,1,3,7,6,0] >>> for i in range(len(list),0,-1): ... print i ... 9 8 7 6 5 4 3 2 1 >>> for i in range(len(list),-1,-1): ... print i ... 9 8 7 6 5 4 3 2 1 0

Shpongle门票Shpongle是要执行在科切拉2011用一个新阶段的Shpongletron

snctoo的专栏

08-11

459

Shpongle门票Shpongle是要执行在科切拉2011用一个新阶段的Shpongletron Shpongle是来自英国的一个慢节奏/环境迷幻恍惚（或psybient）项目。核心成员包括西蒙Posford（又名迷幻剂）和拉贾RAM（无限远项目的三分之一），但他们往往与其他艺术家合作。他们的声音已经采样东方民族乐器与西方现代合成器为基础的迷幻音乐。 Posford负责合成器和录音室工作，而王侯

[Tyvj1655] 游乐园二分查找

Dr_Nobody的博客

08-23

342

Problem题意：有n(<=1e10)个人，每个人会坐当前空闲的，编号最小的飞机(<=1000)，对于第i个飞机，任意人的乘坐时间为si。Analisisn的数量很惊人，不能模拟，所以第一次我考虑从m下手，又怎么做呢？ Dp ? 贪心 ? 似乎无从下手。正解：可以发现坐飞机的时间是有规律的，那么这就意味着如果确定了时间，可以在O(m)的时间内求出有多少人坐了飞机。那么就二分找到最后一个人上

周末放松一下 360 儿童安全桌面推荐

weixin_34111819的博客

04-11

156

简单介绍爬虫基本流程！

weixin_44269229的博客

03-16

3534

简单介绍爬虫基本流程！首选笼统概括一下其流程： 1. 发起请求 2. 获取响应内容 3. 解析内容 4. 保存数据下面来具体说下如何爬取：第一步：通过http库向目标站点发起请求即（request）；然后等待服务器响应；第二步：获取相应内容，如果能够正常响应那么会得到一个response的内容在这里我们再一次详细说明一下response里面所包含的具体的内容；当响应状态为2...

python 简单爬虫

CodeHouse的博客

01-17

365

from bs4 import BeautifulSoup from requests_html import HTMLSession session = HTMLSession() my_response = session.get("http://www.17k.com/") soup = BeautifulSoup(my_response.text, 'lxml') book_list =...

python爬虫初体验（一）