最近学了一阵子的Python,会了基本语法之后就开始自学了一些爬虫,下面分享一下学习过程
首先要安装python,官网下就好了,然后下载pycharm这个ide集成开发环境,很好用的,设置一下路径就可以用它来编写python了,这些都是自行百度,然后写学爬虫,你还要下载一些插件模块,比如beautifulsoup4,当然下载这个之前你要先下载一个pip并安装好,是用来管理python的插件的,安装过程要用到cmd,安装好了还要设置一下环境,细节百度~我也是摸索了很久,还是不懂可以call我(其实也不是很懂),安装成功pip之后设置完路径就可以下beautifulsoup4了,也是要用cmd来安装,去我的电脑那设置路径同理,搞好这些就可以正式编爬虫了(自己配置了半天才搞好),然后就去慕课网看一些爬虫的基础教程,当然他上面写的爬虫有点复杂,我就直接看了一遍bs4的用法和爬虫的原理+百度一些函数就开始写爬虫了,下面贴上我的第一个爬虫代码,只有十几行,用来爬取百度贴吧一个帖子里所有页面的图片
代码:
#coding=utf-8
from bs4 import BeautifulSoup
import urllib
import re
import requests#上面是导入一系列包
r=requests.get('https://tieba.baidu.com/p/5346597658?fr=ala0&pstaala=3&tpl=5&fid=24&red_tag=3129487319')#这里放要爬取的网址
x=0
page=2
while page<10://设置翻多少页面
soup=BeautifulSoup(r.text,'html.parser')#解析html文本
for link in soup.find_all('img',class_="BDE_Image"):#寻找符合条件的节点,这些是通过审查元素分析得到的
urllib.urlretrieve(link['src'], 'D:/temp/%s.jpg' % x)#存入本地d盘temp文件里面并从0开始编号
x += 1
d="https://tieba.baidu.com/p/5346597658?pn="+str(page)#我自己想的翻页方法,不过好像没那么多也可以翻
r=requests.get(d)#重新获得页面
page=page+1#计数器