BeautifulSoup

最新推荐文章于 2023-06-28 23:24:03 发布

火星大熊猫

最新推荐文章于 2023-06-28 23:24:03 发布

阅读量895

点赞数

分类专栏： python学习

本文链接：https://blog.csdn.net/csapr1987/article/details/9329461

版权

python学习专栏收录该内容

29 篇文章 0 订阅

订阅专栏

1.利用BeautifulSoup进行html文件的解析很容易，只要掌握一些规则即可

首先将中文文档的链接给出来 http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#The%20basic%20find%20method:%20findAll%28name,%20attrs,%20recursive,%20text,%20limit,%20**kwargs%29

举一个例子吧

首先安装beautifulSoup

解压Beautiful Soup压缩包。

从命令行进入Beautiful Soup解压目录。

运行“python setup.py build”

运行“python setup.py install”

在windows下如果没有python命令，先将python安装目录加入到环境变量PATH中。

from bs4 import BeautifulSoup 或者 from BeautifulSoup import BeautifulSoup 这两个看那个可以，具体我也没有研究，可能是版本的问题吧

class findurl:
    def __init__(self,url):
        self.url=url
    def read(self):
        req=self.url
        try:
            webpage= urllib2.urlopen(req)
            data=webpage.read()
        except:
            print 'wrong'
            return 'error'
        self.data = data
    def findcom(self):
        self.listcom=[]
        soup = BeautifulSoup(self.data)

	#下面这一句是重点，下面会介绍findAll的具体使用方法
        lista=soup.findAll(text=re.compile("com"))
        self.listcom=lista

方法findAll 从给定的点开始遍历整个树，并找到满足给定条件所有Tag以及NavigableString。 findall函数原型定义如下：

findAll(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

这些参数会反复的在这个文档中出现。其中最重要的是name参数和keywords参数(译注：就是**kwargs参数)。

火星大熊猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup

取得html檔在python可以很輕易的用urllib來達成webfile = urllib.urlopen(url)讀取內容可以用webcontext = wefbfile.read()orwebcontext = webfile.read().decode("UTF-8")如果不指定decode方式則以系統預設方式decode交由Beautifu
复制链接

扫一扫