python爬虫

爬虫对于在学习和工作中有t很大的帮助,对于有许多数据的互联网中,它可以很便捷的找到我们所需的内容。

首先是编辑器:pycharm,社区版 就可以’并在python官网下载python

然后大家需要下载:requests和BeautifulSoup(如果大家有问题,下来可以为大家说说教程)

在学习爬虫之前还是要了解一下html这虽然是前端程序 但对于爬取网页信息有大用处

<html>
    <body>
        <div>
            <h1>一级标题</h1>
            <h2>二级标题</h2>
            <h6>六级标题</h6>
            <h7>七级标题</h7>
            <h8>八级标题</h8>
            <p>
                这是一个<b>段落</b>这是一个<i>段落</i>这是一个<u>段落</u>
            </p>
        </div>
        <p>这是一个这是一个段落<br>段落</p>
        <a href = "https://www.bilibili.com/ "target = "_blank"?>哔哩哔哩链接</a>
        <img alt="E:\"></img>
    </body>

网页样式:

因为是讲解爬虫,大家可以自行搜索.

我们此次是将网页上的信息用BeautifulSoup这个包进行转换获取我们需要的信息。

爬虫大体可以分为三步

1.进行访问

2.进行处理

3.获取信息

我们以爬取豆瓣电影名称为例:

//调用需要的两个包
from bs4 import BeautifulSoup
import requests
//请求头部
h = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0"
}
//调取网址爬取内容
r =  requests.get("https://movie.douban.com/top250",headers = h)
html = r.text
soup = BeautifulSoup(html,"html.parser")
all_titles = soup.findAll("span",attrs={"class ":"title"})
//输出内容
for title in all_titles:
    print(title.string)

因一些原因,更新速度变慢,后续会分享有关爬虫的复杂问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值