【实例】python bs4 beautifulsoup + urllib.request 提取网址

最新推荐文章于 2024-06-05 09:13:17 发布

神创

最新推荐文章于 2024-06-05 09:13:17 发布

阅读量2.5k

点赞数 1

分类专栏： python txt 爬虫

本文链接：https://blog.csdn.net/qq_19741181/article/details/79486231

版权

>>> import re
>>> from bs4 import BeautifulSoup
>>> import urllib.request
>>> import lxml
>>> import requests
>>> url = 'http://www1.szu.edu.cn/board/'
>>> page=requests.get(url).text
>>> pagesoup=BeautifulSoup(page,'lxml')
>>> for link in pagesoup.find_all(name='a',attrs={"href":re.compile(r'^http:')}):
... print(link.get('href'))
...
http://www.szu.edu.cn
http://news.szu.edu.cn
http://210.39.3.155:9090/goLogin.do
http://www.szu.edu.cn/yxjg/xyxb.htm
http://www.szu.edu.cn/yxjg/znbm.htm
http://www.miibeian.gov.cn

>>>

--------------------------------

>>> html = requests.get(url)
>>> soup = BeautifulSoup(html.text,"lxml")

>>> print(soup.get_text())

---------------------

>>> # -*- coding: utf-8 -*-
...
>>> import re
>>> from bs4 import BeautifulSoup
>>> import urllib.request
>>> import lxml
>>> import requests
>>> url = 'http://www1.szu.edu.cn/board/'
>>> html = requests.get(url)
>>> soup = BeautifulSoup(html.text,"lxml")

>>> print(soup.get_text())

-----------------------------------

>>> webdata = requests.get(url)
>>> webdata.encoding = 'GBK'

>>> print(webdata.text)

-----

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

神创

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【实例】python bs4 beautifulsoup + urllib.request 提取网址

&gt;&gt;&gt; import re&gt;&gt;&gt; from bs4 import BeautifulSoup&gt;&gt;&gt; import urllib.request&gt;&gt;&gt; import lxml&gt;&gt;&gt; import requests&gt;&gt;&gt; url = 'http://www1.sz
复制链接

扫一扫