python之爬取页面

爬取百度首页

import urllib.request                                    # 调用urllib库的request模块
respone=urllib.request.urlopen('http://www.baidu.com')   # 打开百度页面
html=respone.read().decode('UTF-8')                      # 获取页面内容
print(html)  

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python可以使用许多不同的库来进行网页爬取,其中比较常用的有Requests和BeautifulSoup。 首先,使用Requests库可以很方便地获取网页的源代码。下面是一个使用Requests库获取网页源代码的示例: ``` import requests url = 'http://example.com' response = requests.get(url) html = response.text ``` 上面的代码首先指定了要爬取的网页的URL,然后使用Requests库的get方法来获取该网页的内容,最后将获取到的内容保存在变量html中。 接下来,可以使用BeautifulSoup库来解析HTML代码,从而获取需要的信息。下面是一个使用BeautifulSoup库获取网页标题的示例: ``` from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') title = soup.title.string print(title) ``` 上面的代码首先将获取到的HTML代码传递给BeautifulSoup库进行解析,然后使用soup.title.string来获取网页的标题,并将其打印出来。 需要注意的是,网页的HTML代码结构可能会因网站而异,因此需要根据实际情况来编写解析代码。如果需要获取某个特定元素的信息,可以使用BeautifulSoup的find或find_all方法来查找该元素,并从中提取需要的信息。例如,如果要获取页面中所有链接的URL和文本,可以使用下面的代码: ``` links = soup.find_all('a') for link in links: url = link.get('href') text = link.string print(url, text) ``` 上面的代码首先使用soup.find_all('a')方法来查找所有的链接元素,然后分别使用link.get('href')和link.string来获取链接的URL和文本,并将它们打印出来。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值