爬虫之爬取古诗文网站

最新推荐文章于 2024-06-13 11:18:37 发布

丁大喵

最新推荐文章于 2024-06-13 11:18:37 发布

阅读量997

点赞数

本文链接：https://blog.csdn.net/l_u_h_a_i/article/details/93190289

版权

import pandas as pd
import urllib.parse
import urllib.request
from lxml import etree
import requests
import re
import time
import os
import random


def get_zhushi_info(url):
    #urls='https://so.gushiwen.org/shiwen2017/ajaxshiwencont.aspx?id=45c396367f59&value=zhu'
    proxy = random.choice(proxy_list)
    header = random.choice(spider_header)
    urlhandle = urllib.request.ProxyHandler({'http': proxy})
    opener = urllib.request.build_opener(urlhandle)
    urllib.request.install_opener(opener)

    req = urllib.request.Request(url)
    req.add_header('User-Agent', header)
    author_poem = []
    response_result = urllib.request.urlopen(req).read()

    html = response_result.decode('utf-8')
    html = etree.HTML(html)

    title = html.xpath(
        '//div[@class="main3"]/div[@class="left"]/div[@class="sons"]/div[@c

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

丁大喵

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫之爬取古诗文网站

import pandas as pdimport urllib.parseimport urllib.requestfrom lxml import etreeimport requestsimport reimport timeimport osimport randomdef get_zhushi_info(url): #urls='https://so.gu...
复制链接

扫一扫