python抓取数据
想要做数据分析师就要知道如何将网页上的数据获取。
比如我要去获取http://pic.netbian.com/4kdongman/index_2.html这个网页里所有的图片。
- 首先电脑里应该先有安装python和配置好python的环境变量。
- 然后我要先建一个文件夹,用来存我抓取到的图片,这个文件夹要建在和我要写python代码的py文件同一个目录里。
- 然后将代码写到我建好的getimages.py中并保存。
#导入模块
import requests
#找网址
url='http://pic.netbian.com/4kdongman/index_2.html'
res =requests.get(url)
res.encoding='gbk'
from bs4 import BeautifulSoup
html=BeautifulSoup(res.text,'html.parser')
#检查 找到图片所在的列表,并找到列表的类名
parent=html.find('ul',class_='clearfix')
#找到列表中的图片
images=parent.find_all('img')
from urllib import request
for each in images: