简单的爬虫------百度贴吧爬图程序

最新推荐文章于 2018-11-29 15:16:12 发布

i-unique

最新推荐文章于 2018-11-29 15:16:12 发布

阅读量689

点赞数 1

分类专栏： Python学习文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_37497322/article/details/78382572

版权

Python学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

最近学了一阵子的Python，会了基本语法之后就开始自学了一些爬虫，下面分享一下学习过程

首先要安装python，官网下就好了，然后下载pycharm这个ide集成开发环境，很好用的，设置一下路径就可以用它来编写python了，这些都是自行百度，然后写学爬虫，你还要下载一些插件模块，比如beautifulsoup4，当然下载这个之前你要先下载一个pip并安装好，是用来管理python的插件的，安装过程要用到cmd，安装好了还要设置一下环境，细节百度~我也是摸索了很久，还是不懂可以call我（其实也不是很懂），安装成功pip之后设置完路径就可以下beautifulsoup4了，也是要用cmd来安装，去我的电脑那设置路径同理，搞好这些就可以正式编爬虫了（自己配置了半天才搞好），然后就去慕课网看一些爬虫的基础教程，当然他上面写的爬虫有点复杂，我就直接看了一遍bs4的用法和爬虫的原理+百度一些函数就开始写爬虫了，下面贴上我的第一个爬虫代码，只有十几行，用来爬取百度贴吧一个帖子里所有页面的图片

代码：

#coding=utf-8
from bs4 import BeautifulSoup
import urllib
import re
import requests#上面是导入一系列包
r=requests.get('https://tieba.baidu.com/p/5346597658?fr=ala0&pstaala=3&tpl=5&fid=24&red_tag=3129487319')#这里放要爬取的网址
x=0
page=2
while page<10://设置翻多少页面
    soup=BeautifulSoup(r.text,'html.parser')#解析html文本
    for link in soup.find_all('img',class_="BDE_Image"):#寻找符合条件的节点，这些是通过审查元素分析得到的
        urllib.urlretrieve(link['src'], 'D:/temp/%s.jpg' % x)#存入本地d盘temp文件里面并从0开始编号
        x += 1
    d="https://tieba.baidu.com/p/5346597658?pn="+str(page)#我自己想的翻页方法，不过好像没那么多也可以翻
    r=requests.get(d)#重新获得页面
    page=page+1#计数器