前言:
开始学习python快2个月了,前段时间突然很喜欢爬虫,研究了一段时间,有一些心得体会,也完成了我自己的需求,趁着还新鲜记录一下,做一个总结。也希望能帮到刚入坑的同学,尽早爬坑。
(一)工具
我用的是pycharm和anaconda,这里强烈推荐anaconda,如果用原版python,以后会发现有些库安装不了或者过程曲折,折腾一下午白瞎的痛苦不要问我是怎么知道的。。。
安装好后进入cmd,用pip安装两个库,requests库和bs4。
以上步骤弄好后进入正题
(二)静态网页数据采集
这里直接用一个经典的案例好了----豆瓣电影TOP250。
http://movie.douban.com/top250/
1、首先分析网页,看看网页的结构找到我们需要采集的元素。这里需要使用chrome浏览器或者chrome内核的浏览器F12功能,如图
F12得到是当前页面的源码,我们需要的信息就在这里面,然后用红框标注的箭头在页面上我们需要采集的信息上点一下,就得到了该信息具体在源码的哪个位置了(或者在网页上点击右键,审查元素)。
这是点了肖申克救赎的结果,从图上就可以很清晰的看出来,每一部电影的所有信息都在一个Li标签里面,电影名字在一个span标签里,标签属性是title。由此就可以得出我们的爬虫逻辑是遍历所有的Li标签,取出需要的数据。
2、代码的实现
import requests
from bs4 import BeautifulSoup
URL = 'http://movie.douban.com/top250/'
def gethtml(url):
html = requests.get(url, headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 \ '
'(KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}).content
这段就是用requests来请求豆瓣top250的网页,.content获得网页的源码。在使用requests的时候,一般都要加上headers参数,来伪装成一个浏览器访问,有的网站需要添加更多参数才行。
def parsehtml(html):
soup = BeautifulSoup(html,'html.parser')
lis = soup.find('ol',{'class': 'grid_view'}).find_all('li')
movie_name_list = []
for li in lis:
movie_name = li.find('div',{'class': 'hd'}).find('span',{'class': 'title'}).getText()
movie_name_list.append(movie_name)
next_page = soup.find('span',{'class': 'next'}).find('a')
if next_page:
return movie_name_list, URL + next_page['href']
return movie_name_list, None
这段定义了一个解析函数,用beautifulsoup定位到我们需要的元素并获取文本,返回两个值一个是电影名字列表,一个是下一页的网址
url = URL
with open('movies', 'w') as fp:
while url:
html = gethtml(url)
movies, url = parsehtml(html)
fp.wri