Beautiful soup 入门

最新推荐文章于 2019-09-16 23:58:59 发布

AG9GgG

最新推荐文章于 2019-09-16 23:58:59 发布

阅读量167

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/AG9GgG/article/details/98745588

版权

笔记专栏收录该内容

30 篇文章 0 订阅

订阅专栏

bs4的基本元素


Tag	标签
Name	名字
Attributes	属性
NavigableString	字符串
Comment	注释字符串

遍历方法

1.下行遍历

.contents
.children
.descendants

2.上行遍历

.parent
.parents

3.平行遍历

.next_sibling
.previous_sibling
.next_sibilings
.previous_sibilings

信息提取的一般方法

1.完整解析信息的标记形式，再提取关键信息

优点：信息解析准确
缺点：提取过程繁琐，速度慢

2.无视标记形式，直接搜索关键信息

优点：提取简单，速度快
缺点：提取结果的准确性与信息内容直接相关

融合方法

结合上述两种方法进行信息提取。
假设，提取HTML中所有的URL链接
（1）搜索到所有标签
（2）解析标签格式，提取href后的链接内容

from bs4 import BeautifulSoup
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('a'):
	print (link.get(href'))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AG9GgG

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python 爬虫入门的教程之Beautiful Soup解析

11-21

Python 爬虫入门教程之 Beautiful Soup 解析本教程主要讲解 Python 爬虫入门知识，通过 Beautiful Soup 解析网页，抓取中国旅游网首页信息，了解网页结构，使用 requests 库抓取网站数据，并进行数据清洗和组织。 ...

Getting Started with Beautiful Soup by Vineeth G. Nair.pdf

01-13

### Beautiful Soup 入门 #### 一、概述《Getting Started with Beautiful Soup》是一本由Vineeth G. Nair撰写的关于Python网页抓取工具Beautiful Soup的书籍。本书主要面向那些希望学习如何构建自己的网页抓取器...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫-Beautiful Soup库入门（四）

12-20

**Python爬虫与Beautiful Soup库入门** Beautiful Soup是Python中常用的HTML和XML解析库，它提供了简单的导航、搜索和修改解析树的接口，是进行网页抓取和数据提取的得力工具。本篇将详细介绍Beautiful Soup库的...

Beautiful Soup 4 Document

02-14

此外，文档还提供了一个快速入门的例子，这个例子使用了《爱丽丝梦游仙境》中的一段故事作为HTML文档。在文档开头提到了几个链接，表明这份文档已经被BeautifulSoup的用户翻译成其他语言，包括中文、日语和韩语...

完整版精品Python网络爬虫教程数据采集信息提取课程 04-Beautiful Soup库入门（共53页）.pptx

11-13

【Python网络爬虫与Beautiful Soup库入门】网络爬虫是一种自动化获取互联网信息的程序，它通过模拟人类浏览器的行为，从网站上抓取所需的数据。在Python中，Beautiful Soup库是用于解析HTML和XML文档的强大工具，...

密码学期末复习

AG9GgG的博客

01-25

5760

密码学期末复习直接导入的本地md，图片加载不出来，pdf下载：第一讲：绪论密码的含义及其主要功能含义：密码学是一个非常庞大而复杂的信息处理系统，涉及信息的机密性、完整性、认证性、不可否认性等许多方面，属于信息安全范畴。主要功能：机密性：是指保证信息不被泄露给非授权的用户或实体，确保存储的信息和传输的信息仅能被授权的各方得到，而非授权用户及时得到信息也无法知晓信息内容，不能使用。 ...

Python实现计分牌调度算法（含源码分享）

AG9GgG的博客

01-03

3392

**写在前面：**这是体系结构课程的一次作业，最终实现的是一个可视化（VUE框架）的计分牌调度展示小程序。仅记录我个人实现的部分，即算法部分，VUE框架是由队友实现的。 ...

Tensorflow实现LSTM文本分类

AG9GgG的博客

03-26

3193

最近需要写一个神经网络模型来做分类。作为此前没有实战过深度学习，只写过SVM之类的，学习过一些理论知识的新手，为了快速上手，第一想法就是找一个简单的demo跑通，对整个流程和结构有一个初步体验。于是在网上找了一个Tensorflow实战系列：手把手教你使用LSTM进行文本分类但是教程存在一个问题，是没有把数据集分成训练和预测两个部分，导致学习过程中学习数据和预测数据产生混淆，让我有些迷茫，然后...

文本型数据特征化（特征提取）

AG9GgG的博客

01-25

2780

如果样本本身就是数字型的，那么样本本身就可以作为特征用于训练我们的模型，那么如果样本本身是文字型样本，如做文本分析等机器学习工作时，该如何提取特征？ 1. 词集模型单词构成的集合，集合中每个元素都只有一个。 2. 词袋模型统计文本中出现的单词，与其出现次数。使用sklearn实现的词袋模型示例如下： 3. TF-IDF模型（term frequency–inverse document f...

体系结构-基本DLX流水线流水段/指令示意图

AG9GgG的博客

10-23

2524

威胁猎杀（Thread Hunting）

AG9GgG的博客

08-28

1465

什么是威胁猎杀是一种集中和迭代的方法，用来搜索、识别和理解进入网络内部的攻击者。利用内外威胁情报资源，主动识破对手的意图、能力和攻击机会，并将对手的优势扭转为防御方的优势，是一个持续改善的迭代过程。作为一个威胁，攻击者含有三个要素：意图、能力和机会。威胁猎杀将搜索重点放在具有着三个特征的对象身上，收集证据、部署对策。最近对威胁猎杀的强调不在于重塑多年来防护者所做的努力，而是关于分析人员有...

2018小结与2019展望

AG9GgG的博客

01-03

1157

2018小结 2018真的是眨眼就没。准确说高中毕业以后的时间过得好快，每年过年的时候我都觉得昨天才刚高中毕业。（呸！不要脸！）2018经历的主要大事应该就是考研调剂，读研生涯的开启以及成功脱单。准的来说整体经历一波三折，结局还算满意。学习考研调剂俗话说得好，“考得好不如报的好”，我就属于没报好的那一类。考研之前并没有什么明确的目标，读研的原因说实话是因为没想好以后要做什么，所以想留在学校...

字符串模糊匹配工具：FuzzyWuzzy

AG9GgG的博客

09-16

916

简介 FuzzyWuzzy是github上一个高星项目，根据Edit Distance计算两个序列之间的距离。Edit Distance是指两个字符串之间，由一个转换为另一个所需的最少编辑次数。编辑操作包括替换、插入、删除，一般认为两个字符串的编辑距离越小，相似度越大。（注意，Edit Distance越小相似度越大，但是FuzzyWuzzy返回的是相似度的数值，所以返回值越大，字符串越相似。安...

python求两个字符串的相对补

AG9GgG的博客

02-21

833

求两个字符串的相对补，即求两个字符串的不同之处。 import difflib str1 = "test 123 same and diff and diff2" str2 = "test 123 same and same and same2" d = difflib.Differ() diff = d.compare(str1.splitlines(), str2.splitlines()...

分析恶意流量的发现——TCP协议下的DNS服务

AG9GgG的博客

09-05

655

一直以为DNS只走UDP，今天分析流量的时候发现了好多TCP连接，目标是53端口的，于是上网查了一下。那么，我发现的这个TCP53，是不是恶意流量呢？根据流量中的可见域名，将域名作为关键词google了一下，发现了它是恶意域名的实锤：https://www.malware-traffic-analysis.net/2014/07/02/index.html TCP是为了隐蔽通信。这是一个2...

CDN（Content Delivery Network，内容分发网络）与Fast Flux

AG9GgG的博客

09-05

646

一、CDN 1、什么是CDN CDN 是构建在网络之上的内容分发网络 CDN是空间换时间的策略 CDN使用户就近获取所需内容，降低网络拥塞，提高用户访问相应速度和命中率 CDN依靠部署在各地的边缘服务器，包括中心平台的负载均衡、内容分发、调度等功能模块基本思路：尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节，使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现...

python字符串的isX方法（islower,isupper,isalpha,isalnum,iadecimal,isspace,istitle）

AG9GgG的博客

01-23

549

islower() : 判断字符串是否全小写 isupper()：判断字符串是否全大写 islower()和isupper()示例： isalpha：判断字符串是否只包含字母 isalpha()示例： isalnum：判断字符串是否只包含字母和数字 isalnum()示例： isdecimal：判断字符串是否只包含数字 isdecimal()示例： isspace：判断字...

《程序员跳槽全攻略》读书笔记

AG9GgG的博客

12-21

375

写在前面的话我是一个状态型选手，就像海潮，随着地月相对位置的变换涨潮退潮，我总是一段时间蹬蹬蹬像一个恐怖的工作狂，然后又进入一段时间的萎靡不振每天吃喝玩睡，吃喝玩睡够了以后（可能是够了，也可能是忧患意识起来了）又开始蹬蹬蹬蹬马不停蹄。但是每一次的成魔都有立刻要完成的事，这次似乎没有太明确的目标。没有目标就是这一次疯魔的针对对象，作为一个没有太多社会经验工程经历仍在学校里摸鱼玩耍的我，该...

Pandas的22种核心操作

AG9GgG的博客

09-11

362

基本数据集操作读取CSV格式的数据集 pd.DataFrame.from_csv("csv_file") pd.read_csv("csv_file") 读取excel数据集 pd.read_excel("excel_file") 将DataFrame直接写入CSV文件 df.to_csv("data.csv", sep=",", index=False) 基本的数据集特征信...

Beautiful Soup 基础入门