网页抓取学习（2）

最新推荐文章于 2024-01-07 15:32:17 发布

pySVN8A

最新推荐文章于 2024-01-07 15:32:17 发布

阅读量169

点赞数

分类专栏： Python 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pySVN8A/article/details/79969091

版权

Python 专栏收录该内容

92 篇文章 0 订阅

订阅专栏

# -*- coding: UTF-8 -*-
#urllib.request — 为打开url提供的可扩展类库
#urlopen是urlopen里的一个方法函数通过网址URL来获取数据
from urllib.request import urlopen

# if has Chinese, apply decode()
#read():打开一个网页获取所有的内容
html = urlopen("http://www.baidu.com/").read().decode('utf-8')
print(html)

#抓取title
#如果我们想用代码找到这个网页的 title, 我们就能这样写. 选好要使用的 tag 名称 <title>. 使用正则匹配.
import re
res = re.findall(r"<title>(.+?)</title>", html)
print("\nPage title is: ", res[0])


#抓取<body>下面的：<p>(.*?)</p>
#如果想要找到中间的那个段落 <p>, 我们使用下面方法,
# 因为这个段落在 HTML 中还夹杂着 tab, new line,
# 所以我们给一个 flags=re.DOTALL 来对这些 tab, new line 不敏感.

#.*?抓链接!
res = re.findall(r"<p>(.*?)</p>", html, flags=re.DOTALL)    # re.DOTALL if multi line
print("\nPage paragraph is: ", res[0])

#整个网页超链接？href
res = re.findall(r'href="(.*?)"', html)
print("\nAll links: ", res)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄6年

66
原创

126
点赞

191
收藏

89
粉丝

关注

私信

分类专栏

Python 92篇
pycharm 2篇
程序 3篇
Excel 10篇
大智慧

最新评论

简单根据时间戳生成随机数
pySVN8A: time.clock() 可以提高很高的时间精度~~!!
测试TensorFlow 是否安装成功
Tisfy: 总结得十分精辟，就像那：汉水东流，都洗尽、髭胡膏血。
测试TensorFlow 是否安装成功
Allo_瑞: 解决了，谢谢！
测试TensorFlow 是否安装成功
Childhood_Sweetheart 回复 EchoTRN: 可以看一下这个解决tensorflow出现AttributeError和RuntimeError：The Session graph is empty. https://blog.csdn.net/thebeautyofmath/article/details/104092085?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param
主题 IDLE Dark 下载网盘分享
zhk1211: 没用诶

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。