3信息标记

1.信息标记的三种方式——(HTML,xml),json,YAML
json “key”:“value” “key”:[“value1”,“value2”]
''key1":{“key2”:“value2”}
YAML:无类型的键值对 name: 中北大学
用缩进来表达包含关系 name:
newname:中北大学
oldname:华北理工学院
用-表达并列关系 name:
-中北大学
-华北理工学院
用|表示整块数据 text: |。。。。。。。。。。。。
用#表示注释

2.三种形式的比较:
XML:
最早的通用信息标记语言,可扩展性好,但繁琐
主要用于Internet上信息交互与传递
json:有键值对的
信息有类型,适合程序处理(js),较xml简洁
主要用于移动应用云端和节点的信息通信,无注释
YAML:无键值对
信息无类型,文本信息比例最高,可读性好。
主要用于各类系统的配置文件,有注释易读。

3.信息提取的一般方式
方法一:完整解析信息的标记形式,再提取关键信息。
需要标记解析器 eg:bs4库的标签树遍历
优点:信息解析准确 缺点:提取过程繁琐,速度慢。
方法二:无视标记形式,直接搜索关键信息。
对信息的文本查找函数即可。
优点:提取过程简单,速度快 缺点:提取结果准确性与信息内容相关
融合方法:结合形式解析与搜索方法,提取关键信息
需要标记解析器及文本查找函数。

实例:提取HTML中的所有url链接
思路:①搜索到所有的a标签
②解析a标签格式,提取href后的链接内容

	informationSoup.py
	from bs4 import BeautifulSoup
	soup=BeautifulSoup(demo,"html.parser")
	for link in soup.find_all('a'):
		print(link.get('href'))

4.基于bs4库的HTML页面内容的查找方法
.find_all(name,attrs,recurive,string,**kwargs)返回列表类型,存储查找结果
①name:要索引标签的名称
eg1: for tag in soup.find_all(True):
print(tag.name)
返回所有标签的名字html,head,title,body,a,b,p,a
eg2:soup.find_all(‘a’) 返回所有的a标签内容
eg3:soup.find_all([‘a’,‘b’]) 返回所有的a标签,b标签的内容
eg4:返回所有的以b开头的标签的内容,要引用正则表达式
import re
for tag in soup.find_all(re.compile(‘b’)):
print(tag.name)-------b,body
②attrs:属性索引
eg1:soup.find_all(‘p’,‘course’)查找p标签中的course属性
eg2:soup.find_all(id=‘link1’)查找id属性为link1的
③recursive:是否对子孙全部检索,默认True
④string:<></>中字符串区域的检索字符串
eg:soup.find_all(string=‘Basic Python’)-------[‘Basic Python’]
eg:import re
soup.find_all(string=re.compile(‘python’))----返回带有此单词的字符串

简写:(…)==.find_all(…) soup(…)==soup.find_all(…)
bs4中查找特定区域内容的主要方法7个+find_all,一共8个

免费下载地址:https://pan.baidu.com/s/1dFbFFWl 可以先使用 满意再收费注册 下载解压 在杀毒软件里面添加信任 再打开“电脑离线地图标注软件”图标使用。保证没有任何功能限制 电脑离线电子地图标注软件主要功能如下:可以标注位置,可以搜索地图上本来有的位置和标注的位置,可以把某个标注的位置显示在地图中心。软件支持电脑在线下载地图后(离线)地图查看浏览, 1.支持谷歌在线(离线)混合卫星地图,普通地图,地形地图,微软电子地图,微软卫星地图,bing地图,在软件界面上可以选择地图类型切换; 2.支持1-20级的地图随意缩放,鼠标右键拖动漫游。 3.支持名称查询定位,可以输入地点名称后定位到所查询的位置。 4.支持坐标查询定位,可以输入坐标数值后定位的所查询的位置。 5.支持用户自定义信息信息高级查询,查询结果实时定位。 6.支持在地图上所选择的标注能点击查看详细信息。 7.支持添加地图标记,距离测量和面积测量,地点名称显示。 8.支持鹰眼显示缩略地图,截屏功能。 9.支持添加自定义标识图标,用户可以更换图标。 10.分类图层管理,可以隐藏/显示图层。 11.支持批量导入导出标注数据。 12.支持绘制直线、曲线和任意线段,可改变颜色和宽度。 13.支持GPS卫星定位功能,需要连接GPS卫星定位硬件设备(USB GPS设备或蓝牙GPS设备,平板电脑)。 14.支持离线地图包自定义下载功能,可以下载世界任何地方的地图。 15.支持保存您当前操作的文件,供日后打开再用,保证操作不会丢失。 16.新增批量导入导出数据功能,网络代理设置。 17.新增分类图层管理。 18.图标上方显示文字。 19.支持在地图上绘制路线。 20.支持gps卫星定位。 21.支持商圈范围功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值