python3简单爬虫环境配置+爬虫源代码(让小白也能玩好爬虫)

1.pycharm爬虫环境配置

一,首先,你需要打开pycharm。
在这里插入图片描述
二,导入必要的模块

1.打开pycharm后,找到file,然后点击settings
在这里插入图片描述
2.找到Project Interpreter 并打开,点击右边的+

在这里插入图片描述
3.导入pip模块,搜索pip并导入

在这里插入图片描述
以相同的方式分别搜索requests和lxml模块并导入
但是注意导入lxml模块时选择版本为3.7.2
因为lxml在3.7.2版本后就没有了etree,对于我们xpath获取数据是有影响的在这里插入图片描述
到这里环境就配置成功啦!!

2.小爬虫–爬取猫眼电影数据

源代码(可直接复制使用)

这里访问的是猫眼电影排行榜前10
网址:https://maoyan.com/board
可以进入网站核实一下爬取的数据对不对

import requests
from lxml import etree

# 得到一个网页数据
def getonepage():

    # 网址
    url = 'https://maoyan.com/board'

    # 模拟浏览器
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}

    # 访问网站获取网站数据
    r = requests.get(url, headers=header)

    # 返回网站数据文本
    return r.text


# 处理并输出网页数据
def parse(text):

    # 处理网站数据文本
    html = etree.HTML(text)

    # 获取指定位置网站数据
    names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')  # 获取电影名

    releasetimes = html.xpath('//div[@class="movie-item-info"]/p[@class="releasetime"]/text()')  # 获取电影上映时间

    # 将电影名和上映时间绑定在一起输出
    for name, releasetime in zip(names, releasetimes):
        print(name, releasetime)


# 将获取的数据赋值给text
text = getonepage()


# 处理并输出网页数据
parse(text)

爬取结果:
在这里插入图片描述

3.结束语

希望你看完这篇文章能对你有所帮助,大佬勿喷

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

杜柠函

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值