python requests BeautifulSoup 爬取网站文字

hu的小金库

于 2021-10-18 15:54:33 发布

阅读量336

点赞数

分类专栏： python 文章标签： python php

本文链接：https://blog.csdn.net/weixin_42137874/article/details/120828148

版权

python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

import re
import requests
from bs4 import BeautifulSoup


def getHTML(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def getContent(url):
    html = getHTML(url)
    print("url=",url)
    soup = BeautifulSoup(html, 'html.parser')
    title = soup.select('h3,label,span')
    print("%s", title)
    return title


def saveFile(text):
    f = open('novel.txt', 'a', encoding='utf-8')
    for t in text:
        if len(t) > 0:
            f.writelines(t.get_text() + "\n")
            print("456", t)
    f.close()


def main():
    li = [1436,1467,1471,1484,1485,1486,4199,4200,16719,16937,17076,17251,17886,18186,18219,18263,18264,18638,20244]
    for j in li:
        print("j=", j)
        url01 = 'http://10.1.20.14/redir.php?catalog_id=6&cmd=learning&tikubh='+str(j)+'&page='
        print(url01)
        for i in range(100):
            url02 = url01+str(i)
            print(url02)
            text = getContent(url02)
            print(text)
            saveFile(text)
            # print("i=",i);




main()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hu的小金库

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python requests BeautifulSoup 爬取网站文字

import reimport requestsfrom bs4 import BeautifulSoupdef getHTML(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return ""def g
复制链接

扫一扫