网页抓取学习(2)

原创 2018年04月17日 07:26:44
# -*- coding: UTF-8 -*-
#urllib.request — 为打开url提供的可扩展类库
#urlopenurlopen里的一个方法函数通过网址URL来获取数据
from urllib.request import urlopen

# if has Chinese, apply decode()
#read():打开一个网页获取所有的内容
html = urlopen("http://www.baidu.com/").read().decode('utf-8')
print(html)

#抓取title
#如果我们想用代码找到这个网页的 title, 我们就能这样写. 选好要使用的 tag 名称 <title>. 使用正则匹配.
import re
res = re.findall(r"<title>(.+?)</title>", html)
print("\nPage title is: ", res[0])


#抓取<body>下面的:<p>(.*?)</p>
#如果想要找到中间的那个段落 <p>, 我们使用下面方法,
# 因为这个段落在 HTML 中还夹杂着 tab, new line,
# 所以我们给一个 flags=re.DOTALL 来对这些 tab, new line 不敏感.
#.*?抓链接!
res = re.findall(r"<p>(.*?)</p>", html, flags=re.DOTALL)    # re.DOTALL if multi line
print("\nPage paragraph is: ", res[0])

#整个网页超链接?href
res = re.findall(r'href="(.*?)"', html)
print("\nAll links: ", res)

Web全栈 第五周(2周学习时间)

Web 前端工程师课程 第5周 http://edu.csdn.net/topic/web1
  • 2017年12月05日 09:43

HTTrackPortable

  • 2017年11月27日 17:05
  • 6.11MB
  • 下载

xpat 说明及实例

示例Xml: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 xml v...
  • liuxueyi521
  • liuxueyi521
  • 2015-08-27 14:08:04
  • 286

网页抓取软件(-------)

  • 2009年02月12日 16:07
  • 180KB
  • 下载

jsp网页抓取天气预报源代码

  • 2009年06月02日 17:31
  • 5KB
  • 下载

网页抓取软件Flash css 文字图片

  • 2010年09月16日 18:47
  • 462KB
  • 下载

.NET 网页抓取例子(天气)

  • 2011年03月15日 13:57
  • 3.18MB
  • 下载

使用Java做网页抓取

现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分...
  • limm33
  • limm33
  • 2017-12-15 11:34:43
  • 236

linux-网页抓取(2)

五、解析网页源代码,得到所需要信息 解析html并不复杂,只是有点麻烦而已。因为页面不可能全部读入内存在解析,只有分开读。分开读就必须要考虑需要查找的标签有可能只读到一部分这种情况。如读1024字节...
  • lanyan822
  • lanyan822
  • 2012-05-16 21:25:07
  • 1583

linux网页抓取-2

五、解析网页源代码,得到所需要信息 解析html并不复杂,只是有点麻烦而已。因为页面不可能全部读入内存在解析,只有分开读。分开读就必须要考虑需要查找的标签有可能只读到一部分这种情况。如读1024字节...
  • aka_xingwenpeng
  • aka_xingwenpeng
  • 2013-04-09 16:20:44
  • 551
收藏助手
不良信息举报
您举报文章:网页抓取学习(2)
举报原因:
原因补充:

(最多只允许输入30个字)