1.环境
a. win
b. python3 官网下载,注意64位,安装时要添加环境变量
c. notepad++
2. 添加beautsoup
官方解释如下:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
a. 将pip添加入环境变量 .../python/Script
b. cmd运行pip install bs4
3. 写代码啦~
import urllib.request
from bs4 import BeautifulSoup
test_url = '网站http'
test_html = urllib.request.urlopen(test_url)
test_soup = BeautifulSoup(test_html,"html.parser")
print(test_soup.prettify())
对对对没错,爬一个网站只需要这么几句代码。
1. 导入 urlib.request模块
在python3以后的版本中,urlib2这个模块已经不单独存在(也就是说当年你import urllib2时,系统提示没有这个模块),urllib2被合并到了urllib中,叫做urllib.request 和urllib.error。至此,urllib整个模块分为urllib.request, urllib.parse, urllib.error。
2. 导入beautfulsoup模块
3. 定义url
4. urllib.request.urlopen()
定义:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
打开网址URL,这可以是一个字符串或一个 Request对象。
关于urllib,urllib2一个小可达鸭的知识积累:http://blog.csdn.net/Jurbo/article/details/52313636
5. BeautfulSoup
python标准库 BeautifulSoup(markup, "heml.parser") 执行速度适中,文档容错能力强 python3之前的版本中文档容错差
LxmlHTML解析器 BeautifulSoup(markup, "lxml") 速度快,文档容错能力强 需要安装c语言库
LxmlXML解析器 BeaufifulSoup(markup, [ "lxml", "xml"]) BeautifulSoup(markup, "xml") 速度快,唯一支持XML的解释器 需要c语言库
html5lib BeautifulSoup(markup, "html5lib") 最好的容错,以浏览器的方式解析文档,胜场html5格式的文档 速度慢,不依赖外部扩展