一、初见网络爬虫

如何不通过浏览器的帮助来格式化和处理数据

本章任务:  首先向网络服务器发送GET请求以获取具体网页,再从网页读取HTML内容,最后做一些简单的信息提取,将我们要找的内容分离出来。

一、网络连接

1、互联网实现过程(待补充)

1.2、网络浏览器: 创建信息的数据包,发送他们,然后把获取的数据解释成漂亮的图像、声音、文字、视频。

1.3、Python是如何实现的:

from urllib.request import urlopen
html = urlopen("https://movie.douban.com/celebrity/1044973/")
print(html.read())

urllib : Python的标准库,,包含了从网络请求数据,处理cookie,甚至改变请求头和用户代理这些元数据的函数。

urlopen: 打开并读取一个从网络获取的远程对象。

二、BeautifulSoup

1、功能: 通过定位HTML标签来格式化和组织复杂的网络信息,用简单易用的Python对象为我们展现XML结构信息。

2、安装:


Mac: sudo easy_install pip        //Mac

pip install beautifulsoup4         
pip install beautifulsoup4     //  windows: cmd进入 pip.exe 所在文件夹
sudo apt-get install python-bs4  // Linux

    3、运行

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("https://movie.douban.com/celebrity/1044973/")
bsObj = BeautifulSoup(html.read(), "lxml")
# print(bsObj.h1)
print(bsObj)

4、可靠的网络连接

html = urlopen("https://movie.douban.com/celebrity/1044973/")

可能出现的异常:

(1)网页在服务器上不存在(获取页面的时候出错)

(2)服务器不存在

第一种,返回HTTP error,“404 page not found”“500 Internet server error”

        处理异常:

try:
	html = urlopen("https://movie.douban.com/celebrity/1044973/")
except HTTPError as e:
	print(e)
	# 返回空值,中断程序,或者执行另一个方案
else:
	# 程序继续(若已在上面异常捕获中返回或中断)
	# 则不需要使用 else ,这段就不会执行。

第二种,链接打不开或打错了,URLopen会返回一个None

if html is None:
	print("URL is not found")
else:
	# 程序继续

AttributeError:

若要调用一个不存在的标签,就会出现AttributeError。

如 

print(bsObj.nonExistingTag.someTag)    # 报错

为避免,需检查:

try:
	badContent = bsObj.nonExistingTag.anotherTag
except AttributeError as e:
	print("Tag was not found")
else:
	if badContent == None:
		print("Tag was not found")
	else:
		print("badContent")
重新组织代码:(返回网页标题)
from urllib.request import urlopen
from bs4 import BeautifulSoup
from urllib import HTTPError,URLError
def getTittle(url):
	try:
		html = urlopen(url)
	except (HTTPError, URLError) as e:
		return None
	try:
		bsObj = BeautifulSoup(html.read())
		tittle = bsObj.body.h1
	except AttributeError as e:
		return None
	return tittle
tittle = getTittle("https://movie.douban.com/celebrity/1044973/")
if tittle == None:
	print("tittle could not be found")
else:
	print(tittle)

    
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
城市应急指挥系统是智慧城市建设的重要组成部分,旨在提高城市对突发事件的预防和处置能力。系统背景源于自然灾害和事故灾难频发,如汶川地震和日本大地震等,这些事件造成了巨大的人员伤亡和财产损失。随着城市化进程的加快,应急信息化建设面临信息资源分散、管理标准不统一等问题,需要通过统筹管理和技术创新来解决。 系统的设计思路是通过先进的技术手段,如物联网、射频识别、卫星定位等,构建一个具有强大信息感知和通信能力的网络和平台。这将促进不同部门和层次之间的信息共享、交流和整合,提高城市资源的利用效率,满足城市对各种信息的获取和使用需求。在“十二五”期间,应急信息化工作将依托这些技术,实现动态监控、风险管理、预警以及统一指挥调度。 应急指挥系统的建设目标是实现快速有效的应对各种突发事件,保障人民生命财产安全,减少社会危害和经济损失。系统将包括预测预警、模拟演练、辅助决策、态势分析等功能,以及应急值守、预案管理、GIS应用等基本应用。此外,还包括支撑平台的建设,如接警中心、视频会议、统一通信等基础设施。 系统的实施将涉及到应急网络建设、应急指挥、视频监控、卫星通信等多个方面。通过高度集成的系统,建立统一的信息接收和处理平台,实现多渠道接入和融合指挥调度。此外,还包括应急指挥中心基础平台建设、固定和移动应急指挥通信系统建设,以及应急队伍建设,确保能够迅速响应并有效处置各类突发事件。 项目的意义在于,它不仅是提升灾害监测预报水平和预警能力的重要科技支撑,也是实现预防和减轻重大灾害和事故损失的关键。通过实施城市应急指挥系统,可以加强社会管理和公共服务,构建和谐社会,为打造平安城市提供坚实的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值