爬虫基础入门（一）

最新推荐文章于 2023-09-22 09:33:06 发布

louishao

最新推荐文章于 2023-09-22 09:33:06 发布

阅读量1k

点赞数

分类专栏： python 文章标签： python 爬虫网络爬虫

本文链接：https://blog.csdn.net/louishao/article/details/70239818

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

爬虫基础入门（一）

本博文介绍最基本的爬虫，先讲解爬虫的概念，具体实现的步骤以及举一个最简单的Python实现的爬虫例子。

何为网络爬虫

我的理解，网络爬虫就是编程实现，自动化爬取网页中的信息。网络爬虫，是网络数据采集的一部分，也是大多数人感兴趣的一部分。

实现网络爬虫，最常用的方法是写一个自动化程序向服务器请求数据（通常是用HTML表单或其他网页文件），然后对数据进行解析，提取需要的信息。

网络爬虫的目的，进行数据分析或者分类。

最简单的爬虫例子

本节Python实现一个最简单的爬虫例子。当然，此处仅用于说明爬虫实战时的步骤和思想，本例还是相当简单的。

写出一个较好的爬虫，需要一点前端知识，毕竟网页是使用前端语言写的；同时，现在而言，还没有万能的爬虫程序，因此，一般情况下，爬虫需要根据特定的网页进行编写，以及不断调试。

简单的爬虫例子：

需要实现的功能：爬去http://example.com/中间部分的字符并保存待使用。

Python中使用两种方法实现，1是使用字符串自带的方法进行匹配；2是使用正则匹配。

# -*- coding:utf-8 -*-

import urllib2
import re

# 第一步：获取网页
website = urllib2.urlopen(r"http://www.example.com/")

# 第二步：读取网页源代码
page = website.read().decode('utf-8') #使用utf-8解码，也可能是gbk

#print(page)

# 第三步：匹配相关信息
# find - 方法返回的是该字符的位置
start_p = page.find('<p>') + 3  # <p>占了三个字符
end_p = page.find('</p>')

msg = re.findall("<p>(.*?)</p>",page,re.S) # .*?属于贪婪匹配，即匹配所有能匹配的
# 括号则表示要抽取的内容，re.S表示将\n也匹配

#print(page[start_p:end_p])
print(msg[0])

# 保存爬取的信息
fp = open('msg.txt','w')
fp.write(msg[0])
#print(fp.read())
fp.close()

运行结果：

This domain is established to be used for illustrative examples in documents. You may use this
    domain in examples without prior coordination or asking for permission.

爬取成功，并保存为.txt文件。