爬虫笔记

minnersinger

于 2019-04-25 11:26:53 发布

阅读量85

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/minnersinger/article/details/89512503

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

global 只是自己记一下，承认是菜鸡，不许笑

首先，能用到requests库，如果没有，在命令行内用pip命令安装一下

这里我们先说get请求，至于其他的我还没接触到，也不敢写

url="http://www.baidu.com"
r = request.get("url")
demo=r.text
prtint(demo)

这里你会发现，打印出来的demo不好看，怎么办呢，我们可以使用BeautifulSoup4，这还是一个第三方库，还是需要pip命令安装一下
安装完成之后

from bs4 import BeautifulSoup
url="http://www.baidu.com"
r = request.get("url")
demo=r.text
sp = BeautifulSoup("demo","html.parser")
print(sp,prettyfy())

这样打印出来的sp 就是一个标准格式的HTML文件了

现在说下爬取图片

首先，肯定能用到requests，那保存呢，肯定会用到os

import  requests   #引入这两个库
import os

url="http://imgmini.eastday.com/pushimg/20190414/400x300_1555221081197441.jpg"
#创建根目录，文件路径
root = "D://PACHONG//"
path = root + url.split("/")[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        res = requests.get(url2)
        with open(path,"wb") as file:
            file.write(res.content)
            file.close()
            print("抄对了")
    else:
        print("抄错了")
except:
    print("爬取失败了")