Python练习之小爬虫--从requests到selenium

前言:
开始学习python快2个月了,前段时间突然很喜欢爬虫,研究了一段时间,有一些心得体会,也完成了我自己的需求,趁着还新鲜记录一下,做一个总结。也希望能帮到刚入坑的同学,尽早爬坑。

(一)工具

我用的是pycharm和anaconda,这里强烈推荐anaconda,如果用原版python,以后会发现有些库安装不了或者过程曲折,折腾一下午白瞎的痛苦不要问我是怎么知道的。。。
安装好后进入cmd,用pip安装两个库,requests库和bs4。
以上步骤弄好后进入正题

(二)静态网页数据采集

这里直接用一个经典的案例好了----豆瓣电影TOP250。
http://movie.douban.com/top250/
1、首先分析网页,看看网页的结构找到我们需要采集的元素。这里需要使用chrome浏览器或者chrome内核的浏览器F12功能,如图
在这里插入图片描述
F12得到是当前页面的源码,我们需要的信息就在这里面,然后用红框标注的箭头在页面上我们需要采集的信息上点一下,就得到了该信息具体在源码的哪个位置了(或者在网页上点击右键,审查元素)。
在这里插入图片描述
这是点了肖申克救赎的结果,从图上就可以很清晰的看出来,每一部电影的所有信息都在一个Li标签里面,电影名字在一个span标签里,标签属性是title。由此就可以得出我们的爬虫逻辑是遍历所有的Li标签,取出需要的数据。
2、代码的实现

import requests
from bs4 import BeautifulSoup

URL = 'http://movie.douban.com/top250/'

def gethtml(url):
    html = requests.get(url, headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 \ '
                      '(KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
    }).content

这段就是用requests来请求豆瓣top250的网页,.content获得网页的源码。在使用requests的时候,一般都要加上headers参数,来伪装成一个浏览器访问,有的网站需要添加更多参数才行。

def parsehtml(html):
    soup = BeautifulSoup(html,'html.parser')
    lis = soup.find('ol',{'class': 'grid_view'}).find_all('li')
    movie_name_list = []
    for li in lis:
        movie_name = li.find('div',{'class': 'hd'}).find('span',{'class': 'title'}).getText()
        movie_name_list.append(movie_name)
    next_page = soup.find('span',{'class': 'next'}).find('a')
    if next_page:
        return movie_name_list, URL + next_page['href']
    return movie_name_list, None

这段定义了一个解析函数,用beautifulsoup定位到我们需要的元素并获取文本,返回两个值一个是电影名字列表,一个是下一页的网址

url = URL
with open('movies', 'w') as fp:
    while url:
        html = gethtml(url)
        movies, url = parsehtml(html)
        fp.wri
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值