爬虫基础入门(一)

爬虫基础入门(一)

本博文介绍最基本的爬虫,先讲解爬虫的概念,具体实现的步骤以及举一个最简单的Python实现的爬虫例子。

何为网络爬虫

我的理解,网络爬虫就是编程实现,自动化爬取网页中的信息。网络爬虫,是网络数据采集的一部分,也是大多数人感兴趣的一部分。

实现网络爬虫,最常用的方法是写一个自动化程序向服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。

网络爬虫的目的,进行数据分析或者分类。

最简单的爬虫例子

本节Python实现一个最简单的爬虫例子。当然,此处仅用于说明爬虫实战时的步骤和思想,本例还是相当简单的。

写出一个较好的爬虫,需要一点前端知识,毕竟网页是使用前端语言写的;同时,现在而言,还没有万能的爬虫程序,因此,一般情况下,爬虫需要根据特定的网页进行编写,以及不断调试。

简单的爬虫例子:

需要实现的功能:爬去http://example.com/中间部分的字符并保存待使用。

Python中使用两种方法实现,1是使用字符串自带的方法进行匹配;2是使用正则匹配。

# -*- coding:utf-8 -*-

import urllib2
import re

# 第一步:获取网页
website = urllib2.urlopen(r"http://www.example.com/")

# 第二步:读取网页源代码
page = website.read().decode('utf-8') #使用utf-8解码,也可能是gbk

#print(page)

# 第三步:匹配相关信息
# find - 方法返回的是该字符的位置
start_p = page.find('<p>') + 3  # <p>占了三个字符
end_p = page.find('</p>')

msg = re.findall("<p>(.*?)</p>",page,re.S) # .*?属于贪婪匹配,即匹配所有能匹配的
# 括号则表示要抽取的内容,re.S表示将\n也匹配

#print(page[start_p:end_p])
print(msg[0])

# 保存爬取的信息
fp = open('msg.txt','w')
fp.write(msg[0])
#print(fp.read())
fp.close()

运行结果:

This domain is established to be used for illustrative examples in documents. You may use this
    domain in examples without prior coordination or asking for permission.

爬取成功,并保存为.txt文件。

总结

其实,爬虫步骤和基本思想并不难,难点在于对实际网页的分析,要写高级爬虫还是需要很多网络与前端的知识的,本人还在慢慢学习,进行多尝试,后续也会再分享自己爬虫的一些感受。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值