爬虫基础(beautifulSoup用法)

最新推荐文章于 2021-08-03 02:03:27 发布

coffeeteaone

最新推荐文章于 2021-08-03 02:03:27 发布

阅读量456

点赞数

本文链接：https://blog.csdn.net/coffeeteaone/article/details/80859061

版权

1,from bs4 import BeautifulSoup

2,请求头headers;
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36','referer':"www.mmjpg.com" }

解释:

all_url = 'http://www.mmjpg.com/'

'User-Agent':请求方式
'referer':从哪个链接跳转进来的

3,建立连接;
start_html = requests.get(all_url, headers=headers)
解释:
all_url：起始的地址，也就是访问的第一个页面
headers：请求头，告诉服务器是谁来了。
requests.get：一个方法能获取all_url的页面内容并且返回内容。

4,解析获取的页面;
Soup = BeautifulSoup(start_html.text, 'lxml')
解释:
BeautifulSoup：解析页面
lxml：解析器
start_html.text：页面的内容

5,处理获取的页面;
all_a = Soup.find('div', class_='pic').find_all('a')[-2]
解释:
Soup.find（）查找某一个
find_all（）查找所有的，返回一个列表
.find('img')['src'] ：获取img的src链接属性
class__:获取目标的类名
div/a:类型条件为div/a的
[-2]可以用来去掉最后多匹配的标签，这里表示去掉最后两个a标签

find()和findAll可并列使用:
例子:
all_list = str_res.find("div", {"class":'f14list'}).findAll("a")
查找div,class='f14list'下面所有的a标签

6,获取目标内容;
<a href =# >内容</a>
解释:

a[i]/get_text():获取第i个a标签里面的内容

7、可能用到的其他功能介绍：
1、文件夹创建与切换
os.makedirs(os.path.join("E:\name", filename))
#在目录E:\name下创建名为filename的文件夹
os.chdir("E:\name\\" + filename)
#切换工作路径到E:\name\filename下

2、文件保存
f = open(name+'.jpg', 'ab')##写入多媒体文件必须要 b 这个参数！
f.write(img.content) ##多媒体文件要是用conctent！
f.close()