网页解析器beautifulsoup安装使用

最新推荐文章于 2022-12-11 20:47:46 发布

都说没想好

最新推荐文章于 2022-12-11 20:47:46 发布

阅读量469

点赞数

分类专栏： python 文章标签： python url web utf-8 源码

本文链接：https://blog.csdn.net/u013045370/article/details/53242260

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

安装方法：

举例说明：

# -*- coding:utf-8 -*-


from bs4 import BeautifulSoup
import urllib2
import re


url="http://www.baidu.com"

res1=urllib2.urlopen(url)
print res1.getcode()
htmldoc=res1.read() #得到百度的源码

soup=BeautifulSoup(htmldoc, #html源码文档字符串
                   'html.parser', #html解析器
                   from_encoding='utf-8') #编码方式

links=soup.find_all('a') #用find_all找到所有a标签的内容

print("\n找出所有链接")
for link in links:
    #打印出a标签的标签名称，href携带的链接，href链接的名字，会看到输出一些javascript
    print link.name,link['href'],link.get_text()
    
#找出一个特定的链接
print("\n找出一个特定的链接")
link_node=soup.find('a',href="http://home.baidu.com")
print link_node['href'],link_node.get_text()

#正则表达式
print("\n正则匹配有'anyi'的链接")
link_node=soup.find('a',href=re.compile(r"anyi"))
print link_node['href'],link_node.get_text()

结果截图：