python学习笔记-5.11-CSDN博客

1、urljoin（a，b）将b按a 的格式转换成一个新的c

        base_url = "http://www.pythonclub.org/python-basic/urlparse"

        relative_url = "../python-basic/datetime"
         
        abs_url = urlparse.urljoin(base_url, relative_url)
         
        print abs_url
         
        #http://www.pythonclub.org/python-basic/datetime
复制代码

2、

        def creat_File(self):
    #新建本地的文件夹路径，用于存储网页、图片等数据！
        filePath = self.filePath
        #判断是否存在、不存在则递归创建
        if not os.path.exists(filePath):
            os.makedirs(filePath)
复制代码

3、urlopen和get

urlopen返回的网页内容实际上是没有被解码或的，在read()得到内容后通过指定decode()函数参数，可以使用对应的解码方式。而requests.get()方法请求了站点的网址，然后打印出了返回结果的类型，状态码，编码方式，Cookies等内容

例子：https://blog.csdn.net/xiangxianghehe/article/details/55803584

4、 BeautifulSoup中有内置的方法prettfy()来实现格式化输出。【按节点整齐输出】