python爬取网页

最新推荐文章于 2024-04-17 14:00:00 发布

sunfoot001

最新推荐文章于 2024-04-17 14:00:00 发布

阅读量395

点赞数

分类专栏： Base

本文链接：https://blog.csdn.net/sunfoot001/article/details/75805348

版权

Base 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1. 使用requests库

import requests 
url="http://www.starbaby.cn/zhinan/609987" 
req =requests.get(url) 
req.encoding='utf-8' #显式地指定网页编码，一般情况可以不用 
print(req.text)

2. 使用BeautifulSoup

from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import requests

def run():
    r = requests.get('http://zy.upln.cn/gongshi2014/index.html')
    soup = r.text.encode(r.encoding) #这里获取的text先按照指定的字符集解析下，这样gbk、utf8都可以了
    soup = BeautifulSoup(soup, 'html.parser')
    soup = soup.find('tbody')
    for x in soup.find_all('tr'):
        for y in x.find_all('td'):
            s = y.a.text
            print(s)


if __name__=="__main__":
    run()