PYTHON 爬虫简单的认识

最新推荐文章于 2023-11-06 21:51:03 发布

deepexpert_gaohz

最新推荐文章于 2023-11-06 21:51:03 发布

阅读量646

点赞数

本文链接：https://blog.csdn.net/deepexpert_gaohz/article/details/41623541

版权

作为初学者，在理解python的网页抓取时，我使用的是urillb，这是python自带的一个标准库。首先我们在开始之前，需要知道网页的头部信息header：server，content—type，last—modified。

在使用urillb的方法时，我用的是python内置的方法，也就是 import urllib ，dir（urllib）的使用方法以及他内部的变量。

另外，网页的内容抓取也可以自己学习网页上的内容

Python提供了许多Module，通过这些Module，可以很简单的做一些工作。比如，要获得cloga这个词在百度搜索结果页中的排名结果（排名结果 +URL），这就是一个很简单的爬虫需求。

import urllib

变量

变量是用来存储一些东西的一个容器. 在很多语言中, 变量是强调类型的, 例如在C中: “int”被称为”整型”, 用来存储整数; “float”被成为”浮点型”, 用来存储小数. 同样, 在很多语言中, 使用它们的时候必须先”声明”变量. 而在python中, 变量是没有明显的类型区分的, 只有少数时候需要我们手动转换类型, 也不需要声明, 所以即使不了解这些东西也没关系.

爬东西的第一步: 加载网页

以加载百度首页为例, 我们需要做的有以下几个步骤:
创建访问请求-> 加载-> 把加载结果显示出来

代码:

import urllib2 # 使用库: urllib2

request = urllib2.Request(url="www.baidu.com")
# 使用urllib2创建一个访问请求, 指定url为"http://www.baidu.com/", 并且把访问请求保存在request这个变量里面

result = urllib2.urlopen(request).read()
# 使用urllib2打开request这个请求(通过urlopen()函数), 并且读取数据(使用read()函数), 把结果保存在result这个变量里面

print result
# 把result变量中的内容(刚刚读取的网页源代码)显示在屏幕上
库中函数的使用方法

库名.函数(参数)
例如:
urllib2.Request(url="http:// www.2cto.com /")

库的名字: urllib2
函数: Request()
参数: url=”http://www.baidu.com/”

deepexpert_gaohz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PYTHON 爬虫简单的认识

作为初学者，在理解python的网页抓取时，我使用的是urillb，这是python自带的一个标准库。首先我们在开始之前，需要知道网页的头部信息header：server，content—type，last—modified。在使用urillb的方法时，我用的是python内置的方法，也就是 import urllib ，
复制链接

扫一扫