Python爬虫之一：获取简单的网页源代码

最新推荐文章于 2024-08-14 11:00:39 发布

Ivan.J

最新推荐文章于 2024-08-14 11:00:39 发布

阅读量2.3k

点赞数 1

分类专栏：个人学习 Python爬虫文章标签：代码 HTML 网络爬虫 Python

本文链接：https://blog.csdn.net/qq_36774795/article/details/94552168

版权

这篇博客介绍了如何使用Python进行简单的网络爬虫开发，涵盖了获取网页源代码、登录操作、代理设置以及cookies的运用，是Python爬虫初学者的实用教程。

摘要由CSDN通过智能技术生成

代码可实现获取简单的网页源代码，包括简单的登录、代理、cookies的使用

import urllib
import socket
from urllib import request, parse
from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener, ProxyHandler
from urllib.error import URLError
import http.cookiejar


def get_simple_url(url, method='POST', timeout=2):  # 获取简单的网页源代码
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
    }
    dict = {
        'word': 'hello'
    }
    try:
        data = bytes(parse.urlencode(dict), encoding='utf8')
        res = request.Request(url, data=data, headers=headers, method=method)
        response = request.urlopen(res, timeout=timeout)
        # print(response.read().decode('utf-8'))   # 输出网页源代码
        # print(type(response))