网址:http://qq.yh31.com/zjbq/0551964.html
一看吓一跳,一共有95页
但是每一页的url有迹可循,比如:
第二页http://qq.yh31.com/zjbq/0551964_2.html
第三页http://qq.yh31.com/zjbq/0551964_3.html
仅仅是在第一页的基础上增加了_2,_3,那就可以通过循环拼接字符串遍历所有页面。
接下来查看第一页上的图片,firefox通过右键---查看元素
可以看到图片信息存储在一阁class='c_content_text'的下面,且标签都为img,而后面的src正是存储的图片的地址,只要获取到这个地址就能将图片下载下来。
这个时候就要用到两个库,requests和bs4,都有详细的官方中文文档:
requests:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
beautifulsoup:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
import
requests
from
bs4
import
BeautifulSoup
#爬取金馆长表情
url
=
"http://qq.yh31.com/zjbq/0551964.html"
r
=
requests.get(
url
=
url)
content
=
r.content
#beautifulsoup解析
btu
=
BeautifulSoup(content,
'html.parser'
)
#先找 c_content_txt
#先找 c_content_txt
listm
=
btu.find(
class_
=
'c_content_text'
)
btu2
=
BeautifulSoup(
str
(listm),
'html.parser'