Python网络爬虫(环境)

一、开发环境

1.Python 3.7windows版 下载链接:https://www.python.org/downloads/windows/

2.Pycharm 下载链接:https://www.jetbrains.com/pycharm/download/#section=windows

二、Python库包

1.urllib

urllib是Python标准库的一个URL处理包,包含了4个模块,每个模块都有特定的函数实现对网站的操作:

1.1 urllib.request:打开和读取URL;

1.2 urllib.error:使用try捕捉处理错误;

1.3 urllib.parse:解析URL;

1.4 urllib.robotparser:解析robots.txt文本文件。

以下是urllib库的简单使用(爬取豆瓣电影网页为例):

from urllib import request	#导入request模块
response=request.urlopen("https://movie.douban.com/")	#打开豆瓣电影网页
html=response.read()	#读取网页html代码
html=html.decode("utf-8")	#将代码转码成utf-8格式,生成剖析树
print(html)	#输出网页代码
2.BeautifulSoup

BeautifulSoup是一个第三方库,用于解析html/xml文本,它可以很好的处理不规范标记并生成剖析树(parse tree)。配合urllib在获取到html文本后可通过其上的标签提取部分指定文本。

2.1 BeautifulSoup(html,“html.parser”):生成文档树,html为解析文本,html.parser为解析模型;

2.2 Beautifulsoup将html文本解析成4种对象类型:
2.2.1 Tag:标签,html文本中用<>包括起来的东西
2.2.2 NavigabString:标签的文本内容,标签下显示的文本
2.2.3 BeautifulSoup:文档内容,可以当成一个特殊的Tag
2.2.4 Comment:与NavigabString相似,但它会省略注释符号,从而得到注释内容

2.3 find_all(name,attrs,recursive,text,limit):在文档树中搜索标签名为name,标签属性为attrs,是否递归为recursive(默认为True),标签文本为text的标签,最多搜索limit条。

具体参考BeautifulSoup官方文档:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0

以下是BeautifulSoup库的简单使用:

from urllib import request	#导入request模块
from bs4 import beautifulSoup	#导入beautifulSoup库
response=request.urlopen("https://movie.douban.com/")	#打开豆瓣电影网页
html=response.read()	#读取网页html代码
soup=BeautifulSoup(html,"html.parser")	#生成文档树,效果与utf-8格式编写的网页使用代码html=html.decode("utf-8")相似
#Tag 标签
print(soup.p)	#获取html文本中第一个名字为p的标签
print(soup.p.name)	#name:获取第一个p标签的名字,即p
print(soup.p.attrs)	#attrs:获取第一个p标签的属性
print(soup('p'))	#获取所有名字为p的标签
print(soup.p.contents)	#contents:获取p标签下的所有子节点内容
print(type(soup.p.children))	#children:对p下的子节点循环生成一个生成器
#NavigabString 标签内容
print(soup.p.string)	#第一个p标签的文本显示
print(soup.p.get_text())	#p标签的内容

三、导入库包

1.urllib是python标准库,所以直接在项目代码中添加“import urlib”字段即可完成导入。
2.BeautifulSoup是第三方库,导入方法如下:
1)在Pycharm主界面中,打开设置:File->Settings…
在这里插入图片描述
2)在设置中,找到项目解释器,并在展开框中点击“+”,为项目添加库包
在这里插入图片描述

3)在搜索框中输入“bs4”,选中bs4库包并点击左下角“Install Package”将库包导入项目

在这里插入图片描述
4)在项目代码中添加“from bs4 import BeautifulSoup”字段即可完成库包导入
5)第一次从setting中导入库包后,之后再想使用BeautiulSoup库包就只需要执行4)步骤就行了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python网络爬虫案例Jupyter是一个基于Python编程语言的网络爬虫案例,它使用Jupyter Notebook作为开发环境,可以帮助开发者快速构建高效的网络爬虫程序。该案例提供了丰富的爬虫实例和代码示例,包括爬取网页、解析HTML、爬取图片、爬取视频等功能,可以帮助开发者快速入门网络爬虫技术。同时,该案例还提供了详细的文档和教程,方便开发者学习和使用。 ### 回答2: Jupyter是Python编程语言的一个强大工具,它包括编辑器、代码运行器、可视化工具和其他各种功能,可以帮助用户更好地编写Python代码。在网络爬虫应用中,Jupyter可以帮助用户快速编写并验证爬虫代码,从网站抓取所需的数据。下面将介绍一个Python网络爬虫案例,使用Jupyter实现页面数据抓取和分析。 我们可以使用requests和bs4等Python库来编写爬虫程序。首先,我们在Jupyter中导入这些库并使用requests库获取目标网站的HTML页面。然后,我们使用BeautifulSoup库来分析网页,并提取所需的数据。 假设我们要从某个电商网站抓取商品列表和价格,我们需要首先找到商品页面的URL,并使用requests库将其下载到本地。然后,我们使用BeautifulSoup库来解析HTML,并找到所有商品元素的标识。 接下来,我们可以遍历所有商品元素,并从中提取商品名称和价格,将它们保存到Python列表中。最后,我们可以使用pandas等数据分析工具来分析和可视化这些数据。 在使用Jupyter进行Python网络爬虫时,需要注意一些法律和伦理规定。例如,不得使用爬虫程序来访问受保护的网站或目标网站的私人数据,同时必须遵守网络爬虫的最佳实践,如设置延迟以防止过度请求并维护爬虫的透明度和可访问性。 总之,Python网络爬虫是一项极具价值的技能,它可以帮助我们有效地获取所需的数据,并进行相应的分析和应用。Jupyter是一个非常强大的工具,可以帮助我们更加高效地开发、测试和优化Python爬虫程序。 ### 回答3: Python网络爬虫案例Jupyter是一种流行的Python IDE,它是IPython的一个分支。这个工具在进行数据分析和数据可视化的时候非常方便,支持多种语言,可以集成版本控制工具,如Git和Subversion。Jupyter还提供了一个交互式用户界面,让用户可以在一个Web浏览器中编写代码、运行代码和发布结果。Jupyter中支持Python、R、Julia三种主流编程语言,而Python是最为常用的语言。在Jupyter中,用户可以打开Jupyter Notebook,即可以创建代码和文本单元,既可以在代码单元中写代码,在文本单元中写笔记和注释。 当然,在网络爬虫中,Jupyter也有着广泛的应用。在网络爬虫中,有很多需要进行分析和处理的数据,Jupyter非常适合这一场景。因为它可以很方便地进行数据可视化、分析和处理。Jupyter提供的交互式界面,可以让用户更加自由地进行数据分析,而且还支持快速调试代码。因此,在开发网络爬虫时,Jupyter是一个很好的工具。 在Python网络爬虫案例Jupyter中,用户可以使用Python的Requests、BeautifulSoup和Selenium等库进行程序的编写。Requests是Python中一个非常常用的HTTP库,可以用来发送HTTP请求。而BeautifulSoup则是一个用来解析HTML和XML文档的库,可以帮助我们从网页中获取信息。Selenium用于用户模拟浏览器操作,可以用来进行自动化测试和爬虫。 除了这些库,Jupyter还提供了很多其他的功能,如数据可视化、文本处理和机器学习等。在开发网络爬虫时,这些功能非常有用,可以帮助我们分析和处理抓取到的数据,并从中提取有用的信息。因此,Python网络爬虫案例Jupyter是一个非常值得学习和使用的工具,在网络爬虫中有着广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值