最新Python爬虫基础爬取网页访问网页_python 爬虫网站

最新推荐文章于 2024-06-04 20:32:15 发布

2401_84563875

最新推荐文章于 2024-06-04 20:32:15 发布

阅读量1.2k

点赞数 17

分类专栏：程序员文章标签： python 爬虫 jvm

本文链接：https://blog.csdn.net/2401_84563875/article/details/138415851

版权

二、爬取网页

1.模仿浏览器

当浏览器对网址进行访问时，首先需要向服务器发送一个访问请求，并且将浏览器自身的一些信息发送给服务器，服务器接收到浏览器发送的信息之后开始检查，看这个“浏览器”是否有访问的权限，以及可以接受什么样的文件，然后服务器才能将信息发送到相应的浏览器上呈现给用户。

那么显而易见，我们现在要做的事情就是 模仿浏览器 给服务器发送信息：用户代理（User-Agent）！至于这个用户代理具体的含义以及用法还不是很清楚，但是可以简单的理解为我的浏览器的一个标志，表示我们是一个浏览器，而不是爬虫。

2.实例分析

下面以豆瓣为例，爬取前250名的高分电影的信息。其中需要导入一些包，包括网页解析、网页访问的和一些数据库操作的包。先来进行获取网页数据，对于解析和保存后面再慢慢学习。

（1）代码

# 导入所用到的包
from bs4 import BeautifulSoup      # 网页解析，获取数据
import re        # 正则表达式，进行文字匹配
import urllib.request,urllib.error    # 指定URL，获取网页数据
import xlwt      # 进行excel操作
import sqlite3   # 进行SQLite数据库操作

# 主函数
def main():
    baseurl = "https://movie.douban.com/top250?start="
    # 1.爬取网页
    datalist = getData(baseurl)
    # 2.解析网页
    # 3.保存数据

# 爬取网页函数
def getData(baseurl):
    datalist = []
    for i in range(0,10):
        n = str(i*25)   # 页数
        url = baseurl + n  # 每一页的网址
        html = askURL(url)  # 访问每一个网页的内容
        datalist.append(html)

    return datalist

#