python3学习笔记之七——爬虫之爬取qq表情金馆长

joey_2018_

于 2018-06-14 17:39:47 发布

阅读量719

点赞数

CC 4.0 BY-SA版权

分类专栏： python3

本文链接：https://blog.csdn.net/joey_2018_/article/details/80691418

本文介绍了如何使用Python3进行网页爬虫，目标是抓取QQ网站上的金馆长表情。通过分析URL规律，发现可以通过在初始页面URL后添加_2, _3等来遍历所有页面。利用Firefox的开发者工具查看图片元素，找到图片的src属性。借助requests和bs4库，可以获取并下载这些图片。最终成功实现了表情的抓取。" 111506408,10295066,使用jQuery获取UEditor富文本内容详解,"['前端开发', 'jQuery', '富文本编辑器']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网址：http://qq.yh31.com/zjbq/0551964.html

一看吓一跳，一共有95页

但是每一页的url有迹可循，比如：

第二页http://qq.yh31.com/zjbq/0551964_2.html

第三页http://qq.yh31.com/zjbq/0551964_3.html

仅仅是在第一页的基础上增加了_2,_3,那就可以通过循环拼接字符串遍历所有页面。

接下来查看第一页上的图片，firefox通过右键---查看元素

可以看到图片信息存储在一阁class='c_content_text'的下面，且标签都为img,而后面的src正是存储的图片的地址，只要获取到这个地址就能将图片下载下来。

这个时候就要用到两个库，requests和bs4,都有详细的官方中文文档：

requests:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

beautifulsoup:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

 
  import 
   requests 
 
 
  from 
   bs4  
  import 
   BeautifulSoup 
 

 
  #爬取金馆长表情 
 

 
  url  
  = 
    
  "http://qq.yh31.com/zjbq/0551964.html" 
 
 
  r  
  = 
   requests.get( 
  url 
  = 
  url) 
 
 
  content  
  = 
   r.content 
 
 
  #beautifulsoup解析 
 
 
  btu  
  = 
   BeautifulSoup(content, 
  'html.parser' 
  )
#先找 c_content_txt
 
 
 
  listm  
  = 
   btu.find( 
  class_ 
  = 
  'c_content_text' 
  ) 
 
 
  btu2  
  = 
   BeautifulSoup( 
  str 
  (listm), 
  'html.parser' 
 

最低0.47元/天解锁文章