Python练习之小爬虫--从requests到selenium

最新推荐文章于 2024-05-11 11:58:48 发布

丨郭巨侠丨

最新推荐文章于 2024-05-11 11:58:48 发布

阅读量741

点赞数

分类专栏： python--爬虫文章标签： python 爬虫 Selenium

本文链接：https://blog.csdn.net/qq_43138188/article/details/84026253

版权

前言：
开始学习python快2个月了，前段时间突然很喜欢爬虫，研究了一段时间，有一些心得体会，也完成了我自己的需求，趁着还新鲜记录一下，做一个总结。也希望能帮到刚入坑的同学，尽早爬坑。

(一)工具

我用的是pycharm和anaconda，这里强烈推荐anaconda，如果用原版python，以后会发现有些库安装不了或者过程曲折，折腾一下午白瞎的痛苦不要问我是怎么知道的。。。
安装好后进入cmd，用pip安装两个库，requests库和bs4。
以上步骤弄好后进入正题

(二)静态网页数据采集

这里直接用一个经典的案例好了----豆瓣电影TOP250。
http://movie.douban.com/top250/
1、首先分析网页，看看网页的结构找到我们需要采集的元素。这里需要使用chrome浏览器或者chrome内核的浏览器F12功能，如图
在这里插入图片描述
F12得到是当前页面的源码，我们需要的信息就在这里面，然后用红框标注的箭头在页面上我们需要采集的信息上点一下，就得到了该信息具体在源码的哪个位置了（或者在网页上点击右键，审查元素）。

这是点了肖申克救赎的结果，从图上就可以很清晰的看出来，每一部电影的所有信息都在一个Li标签里面，电影名字在一个span标签里，标签属性是title。由此就可以得出我们的爬虫逻辑是遍历所有的Li标签，取出需要的数据。
2、代码的实现

import requests
from bs4 import BeautifulSoup

URL = 'http://movie.douban.com/top250/'

def gethtml(url):
    html = requests.get(url, headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 \ '
                      '(KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
    }).content

这段就是用requests来请求豆瓣top250的网页，.content获得网页的源码。在使用requests的时候，一般都要加上headers参数，来伪装成一个浏览器访问，有的网站需要添加更多参数才行。

def parsehtml(html):
    soup = BeautifulSoup(html,'html.parser')
    lis = soup.find('ol',{'class': 'grid_view'}).find_all('li')
    movie_name_list = []
    for li in lis:
        movie_name = li.find('div',{'class': 'hd'}).find('span',{'class': 'title'}).getText()
        movie_name_list.append(movie_name)
    next_page = soup.find('span',{'class': 'next'}).find('a')
    if next_page:
        return movie_name_list, URL + next_page['href']
    return movie_name_list, None

这段定义了一个解析函数，用beautifulsoup定位到我们需要的元素并获取文本，返回两个值一个是电影名字列表，一个是下一页的网址

url = URL
with open('movies', 'w') as fp:
    while url:
        html = gethtml(url)
        movies, url = parsehtml(html)
        fp.wri

最低0.47元/天解锁文章

丨郭巨侠丨

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python练习之小爬虫--从requests到selenium

前言：开始学习python快2个月了，前段时间突然很喜欢爬虫，夜以继日的钻研了一段时间，有了一些心得体会，也完成了我自己的需求，趁热乎记录一下，做一个总结。(一)工具这里推荐pycharm和anaconda，这里强烈推荐anaconda，如果用原版python，以后会发现有些库安装不了或者过程曲折，折腾一下午白瞎的痛苦不要问我怎么知道的。。安装好后进入cmd，用pip安装两个库，reque...
复制链接

扫一扫