网页抓取学习(3)BeautifulSoup

转载 2018年04月17日 10:23:58
from bs4 import BeautifulSoup
from urllib.request import urlopen

# if has Chinese, apply decode()
html = urlopen("https://morvanzhou.github.io/static/scraping/basic-structure.html").read().decode('utf-8')
print(html)
#
soup = BeautifulSoup(html, features='lxml')
print(soup.h1)
#\n(匹配一个换行符)
print('\n', soup.p)
#

all_href = soup.find_all('a')
all_href = [l['href'] for l in all_href]
#只抓取了
<body>下的超链接
print('\n', all_href)                

beautifulsoup python

  • 2013年06月07日 12:36
  • 137KB
  • 下载

Python3爬虫学习3:Beautiful Soup的用法

Beautiful Soup的用法之前通过urllib.request模块可以将网页当作本地文件来读取,那么获得网页的html代码后,自然就是要将我们所需要的部分从杂乱的html代码中分离出来。既然要...
  • weixin_37636702
  • weixin_37636702
  • 2017-12-09 08:47:24
  • 425

python : BeautifulSoup 网页 table 抓取实例

python BeautifulSoup 网页 table 抓取实例
  • belldeep
  • belldeep
  • 2017-12-24 21:02:23
  • 509

Python爬虫包 BeautifulSoup 学习(六) 递归抓取

之前的代码都是对单个静态页面进行抓取,这是人为简化的例子。爬虫的主要目的就是为了沿着网络抓取需要的内容。它们的本质是一种递归的过程。它们首先需要获得网页的内容,然后分析页面内容并找到另一个URL,然后...
  • u013007900
  • u013007900
  • 2016-12-25 11:09:56
  • 2835

python3实现网络爬虫(4)--BeautifulSoup使用(3)

这一次我们继续来讲一下BeautifulSoup的相关知识,说一下BeautifulSoup导航树的相关内容。 在上一次的博客中我们了解到findAll函数通过标签的名称和属性来查找标签,但有的时候在...
  • qq_29883591
  • qq_29883591
  • 2016-11-18 16:23:45
  • 10753

Python爬虫包 BeautifulSoup 学习(五) 实例

BeautifulSoup使用BeautifulSoup抓取豆瓣电影的一些信息。# -*- coding: utf-8 -*- # @Author: HaonanWu # @Date: 2016-...
  • u013007900
  • u013007900
  • 2016-12-24 18:08:42
  • 1203

Python爬虫包 BeautifulSoup 学习(三) 实例

一步一步构建一个爬虫实例,抓取糗事百科的段子先不用beautifulsoup包来进行解析第一步,访问网址并抓取源码# -*- coding: utf-8 -*- # @Author: HaonanWu...
  • u013007900
  • u013007900
  • 2016-12-22 21:46:54
  • 1529

python3实现网络爬虫(3)--BeautifulSoup使用(2)

在这一次的内容中,我们继续讨论BeautifulSoup的一些操作,我们这次只讨论几个在实践中用处特别大的几个函数。...
  • qq_29883591
  • qq_29883591
  • 2016-11-11 22:16:53
  • 4314

Python3 BeautifulSoup4结合urllib简单使用

1、使用urllib下载网页 2、构造BeautifulSoup对象 3、剖析文档 代码示例:【需要注意import模块版本的区别】 import urllib.request from bs...
  • Mr_Tank_
  • Mr_Tank_
  • 2013-12-15 15:00:17
  • 11176

HTTrackPortable

  • 2017年11月27日 17:05
  • 6.11MB
  • 下载
收藏助手
不良信息举报
您举报文章:网页抓取学习(3)BeautifulSoup
举报原因:
原因补充:

(最多只允许输入30个字)