20190716-Python网络数据采集/第 2 章复杂HTML解析

最新推荐文章于 2023-01-16 14:53:47 发布

weixin_30516243

最新推荐文章于 2023-01-16 14:53:47 发布

阅读量49

点赞数

文章标签： python javascript ViewUI

原文链接：http://www.cnblogs.com/ElonJiang/p/11198323.html

版权

# P29/9
# 解析，要考虑到可持续性问题，对方反爬修改后，仍继续有效，方为优秀代码
# 解析一个目标网页前，需要做到以下几点：
（1）明确目标内容；
（2）寻找“打印此页”的链接，或查看网站有无HTML样式更友好的移动版（把自己的请求头设置为处于移动设备的状态，后接收网站移动版，更多见第12章）
（3）寻找隐藏在JavaScript文件中的信息；
（4）寻找网页标题（常用），有时也可从URL中获取；
（5）思考，你需要找的数据，有没有其他网站可以提供？多源

 1 from urllib.request import urlopen
 2 from bs4 import BeautifulSoup
 3 
 4 html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
 5 
 6 # 此处有报警，pass the additional argument 'features="lxml"' to the BeautifulSoup constructor
 7 # 参考：https://stackoverflow.com/questions/50045775/lxml-beautifulsoup-parser-warning
 8 bsobj = BeautifulSoup(html,features="lxml")
 9 
10 # 找出所有该标签及对应的内容，存在一个列表[，，，]里面
11 namelist = bsobj.findAll("span",{"class":"green"})
12 
13 print(namelist)
14 
15 for name in namelist:
16     # 用name变量，遍历namelist[]中所有元素，并去除tag中包含的文本内容
17     print(name.get_text())

更多关于BeautifulSoup的文档，一定要看！！！参见链接

Beautiful Soup将复杂的HTML文档转换成一个复杂的树形结构，每个节点都是Python对象，所有的对象归纳起来有4种，分别是：Tag，NavigableString，BeautifulSoup，Comment。

核心知识点：

（1）用 .get_text() 进行格式化输出，.get_text()只输出tag及子孙tag中的文本内容

（2）.find()及 .findAll()函数

1  findAll(tag, attributes, recursive, text, limit, keywords)
2  find(tag, attributes, recursive, text, keywords)

　　tag，标签参数，可传一个标签的名称或多个标签的名称，组成Python列表，作为标签参数。

1  .findAll({"h1","h2","h3","h4"})

　　attributes，属性参数，用Python字典封装一个标签的若干属性和对应的属性值。

1     .findAll("span", {"class": {"green", "red"}})

　　recursive，递归参数，是一个布尔变量。如果设置为TRUE（默认参数），则查询标签参数的所有子标签，以及子标签的子标签，如果为FALSE，只查找文档的一级标签（相当于 .find()函数）。

后续 “导航树”。。。

转载于:https://www.cnblogs.com/ElonJiang/p/11198323.html

weixin_30516243

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
20190716-Python网络数据采集/第 2 章复杂HTML解析

# P29/9# 解析，要考虑到可持续性问题，对方反爬修改后，仍继续有效，方为优秀代码# 解析一个目标网页前，需要做到以下几点：（1）明确目标内容；（2）寻找“打印此页”的链接，或查看网站有无HTML样式更友好的移动版（把自己的请求头设置为处于移动设备的状态，后接收网站移动版，更多见第12章）（3）寻找隐藏在JavaScript文件中的信息；（4）寻找网页标题（常用），有时也可从URL中获取；（5...
复制链接

扫一扫