简单的爬虫------百度贴吧爬图程序

  最近学了一阵子的Python,会了基本语法之后就开始自学了一些爬虫,下面分享一下学习过程

  首先要安装python,官网下就好了,然后下载pycharm这个ide集成开发环境,很好用的,设置一下路径就可以用它来编写python了,这些都是自行百度,然后写学爬虫,你还要下载一些插件模块,比如beautifulsoup4,当然下载这个之前你要先下载一个pip并安装好,是用来管理python的插件的,安装过程要用到cmd,安装好了还要设置一下环境,细节百度~我也是摸索了很久,还是不懂可以call我(其实也不是很懂),安装成功pip之后设置完路径就可以下beautifulsoup4了,也是要用cmd来安装,去我的电脑那设置路径同理,搞好这些就可以正式编爬虫了(自己配置了半天才搞好),然后就去慕课网看一些爬虫的基础教程,当然他上面写的爬虫有点复杂,我就直接看了一遍bs4的用法和爬虫的原理+百度一些函数就开始写爬虫了,下面贴上我的第一个爬虫代码,只有十几行,用来爬取百度贴吧一个帖子里所有页面的图片

代码:

#coding=utf-8
from bs4 import BeautifulSoup
import urllib
import re
import requests#上面是导入一系列包
r=requests.get('https://tieba.baidu.com/p/5346597658?fr=ala0&pstaala=3&tpl=5&fid=24&red_tag=3129487319')#这里放要爬取的网址
x=0
page=2
while page<10://设置翻多少页面
    soup=BeautifulSoup(r.text,'html.parser')#解析html文本
    for link in soup.find_all('img',class_="BDE_Image"):#寻找符合条件的节点,这些是通过审查元素分析得到的
        urllib.urlretrieve(link['src'], 'D:/temp/%s.jpg' % x)#存入本地d盘temp文件里面并从0开始编号
        x += 1
    d="https://tieba.baidu.com/p/5346597658?pn="+str(page)#我自己想的翻页方法,不过好像没那么多也可以翻
    r=requests.get(d)#重新获得页面
    page=page+1#计数器



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值