爬虫基础

最新推荐文章于 2023-10-31 10:27:55 发布

qimi_and_softkitty

最新推荐文章于 2023-10-31 10:27:55 发布

阅读量289

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qimi_and_softkitty/article/details/78550927

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.环境

a. win

b. python3 官网下载，注意64位，安装时要添加环境变量

c. notepad++

2. 添加beautsoup

官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

a. 将pip添加入环境变量 .../python/Script

b. cmd运行pip install bs4

3. 写代码啦~

import urllib.request

from bs4 import BeautifulSoup

test_url = '网站http'

test_html = urllib.request.urlopen(test_url)

test_soup = BeautifulSoup(test_html,"html.parser")

print(test_soup.prettify())

4. 解释
对对对没错，爬一个网站只需要这么几句代码。
1. 导入 urlib.request模块
在python3以后的版本中，urlib2这个模块已经不单独存在（也就是说当年你import urllib2时，系统提示没有这个模块），urllib2被合并到了urllib中，叫做urllib.request 和urllib.error。至此,urllib整个模块分为urllib.request, urllib.parse, urllib.error。
2. 导入beautfulsoup模块
3. 定义url
4. urllib.request.urlopen()
定义：urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
打开网址URL,这可以是一个字符串或一个 Request对象。
关于urllib,urllib2一个小可达鸭的知识积累：http://blog.csdn.net/Jurbo/article/details/52313636

5. BeautfulSoup

python标准库 BeautifulSoup(markup, "heml.parser") 执行速度适中，文档容错能力强 python3之前的版本中文档容错差

LxmlHTML解析器 BeautifulSoup(markup, "lxml") 速度快，文档容错能力强需要安装c语言库

LxmlXML解析器 BeaufifulSoup(markup, [ "lxml", "xml"]) BeautifulSoup(markup, "xml") 速度快，唯一支持XML的解释器需要c语言库

html5lib BeautifulSoup(markup, "html5lib") 最好的容错，以浏览器的方式解析文档，胜场html5格式的文档速度慢，不依赖外部扩展