bs4抓取html,使用bs4提取html文件中的文本

最新推荐文章于 2022-11-26 23:41:14 发布

James-bean

最新推荐文章于 2022-11-26 23:41:14 发布

阅读量575

点赞数

文章标签： bs4抓取html

想从我的html文件中提取文本。如果我对特定文件使用以下命令：import bs4, sys

from urllib import urlopen

#filin = open(sys.argv[1], 'r')

filin = '/home/iykeln/Desktop/R_work/file1.html'

webpage = urlopen(filin).read().decode('utf-8')

soup = bs4.BeautifulSoup(webpage)

for node in soup.findAll('html'):

print u''.join(node.findAll(text=True)).encode('utf-8')

它会起作用的。

但在下面尝试使用open(sys.argv[1]，'r')处理非特定文件：import bs4, sys

from urllib import urlopen

filin = open(sys.argv[1], 'r')

#filin = '/home/iykeln/Desktop/R_work/file1.html'

webpage = urlopen(filin).read().decode('utf-8')

soup = bs4.BeautifulSoup(webpage)

for node in soup.findAll('html'):

print u''.join(node.findAll(text=True)).encode('utf-8')

或者import bs4, sys

from urllib import urlopen

with open(sys.argv[1], 'r') as filin:

webpage = urlopen(filin).read().decode('utf-8')

soup = bs4.BeautifulSoup(webpage)

for node in soup.findAll('html'):

print u''.join(node.findAll(text=True)).encode('utf-8')

我将得到以下错误：Traceback (most recent call last):

File "/home/iykeln/Desktop/py/clean.py", line 5, in

webpage = urlopen(filin).read().decode('utf-8')

File "/usr/lib/python2.7/urllib.py", line 87, in urlopen

return opener.open(url)

File "/usr/lib/python2.7/urllib.py", line 180, in open

fullurl = unwrap(toBytes(fullurl))

File "/usr/lib/python2.7/urllib.py", line 1057, in unwrap

url = url.strip()

AttributeError: 'file' object has no attribute 'strip'

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

James-bean

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

bs4获取html文档,使用bs4提取html文件中的文本

weixin_42641869的博客

06-04

1549

想从我的html文件中提取文本。如果我使用下面的特定文件：使用bs4提取html文件中的文本import bs4, sysfrom urllib import urlopen#filin = open(sys.argv[1], 'r')filin = '/home/iykeln/Desktop/R_work/file1.html'webpage = urlopen(filin).read().de...

使用BS4解析网页内容并获取指定内容

han_yanlong的博客

08-08

5514

参与评论您还未登录，请先登录后发表或查看评论

bs4节点文字获取

qq_30602869的博客

04-01

1082

获取到下面的节点列表 [ 免费第1章奇葩应聘条件, 免费第2章只闻其声未见其人, 免费第3章人生处处有惊喜] 想获取a标签内的标题字符串，用each.string，结果为none。用**each.contents[i]**才可以 ...

Python页面解析和数据提取【bs4】

weixin_34259232的博客

02-21

348

了解bs4 bs4(Beautiful Soup)是一个可以从HTML或XML文件中提取数据的Python库它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 Beautiful Soup会帮你节省数小时甚至数天的工作时间 BeautifulSoup BeautifulSoup是bs4中非常重要的一个类它利用html或xml文件快速生一个对象我们可以借用该对象的方法和属性...

requests+bs4爬取网页内容——以爬取网页文章信息为例

lyq_wtnl的博客

08-17

8772

一、引言目标网址：https://gary666.com/learn 爬取方式：requests+bs4 难度：易基本爬取的内容：输出：页面中所有的文章的标题、内容、作者、文章分类、时间对应上图（标题为win10python安装配置selenium 、作者是Gary、文章分类python、时间2020-7-9）选做内容：数据存储：txt、excel、数据库（mysql、sqlite等）翻页：https://gary666.com/learn?page=2，url

Python_bs4实现网页图片内容爬取

Timber_kito的博客

11-09

1359

bs4实现网页图片内容爬取项目信息作者：Timber 指导教师：CQIPC_Bai 操作系统：Windows 11 x64 开发工具：IntelliJ PyCharm 2021.1.3 (Professional Edition) 项目需求对给定天气预报网站进行图片爬取（代码+注释截图）运行结果截图梳理代码流程及说明文档的截图特别说明：每一个截图需包含个人信息，否则影响作业得分项目结构项目依赖库 from bs4 import BeautifulSoup from bs4 impo

Python BS4库的安装与使用详解

09-20

总的来说，Python的BeautifulSoup库为开发者提供了一个优雅的方式来解析HTML和XML文档，无论是进行网页抓取还是处理本地文件，BS4都能大大简化工作流程。其灵活性和易用性使得它成为了Python中不可或缺的Web解析工具...

python中bs4.BeautifulSoup的基本用法

09-18

这些是`bs4.BeautifulSoup`最基础的用法，通过这些方法，开发者可以方便地遍历和操作HTML文档，实现网页数据的抓取和处理。在实际应用中，结合其他Python爬虫库如`requests`，可以构建出强大的网络爬虫系统，用于...

05.bs4解析-HTML语法1

08-03

要使用bs4，你需要先安装这个库，可以通过运行`pip install beautifulsoup4`来完成。 HTML文档由一系列标签组成，这些标签以尖括号包围，如`<h1>`和`</h1>`。`<h1>`是一个标题标签，表示一级标题，通常用于页面的...

浅谈Python中的bs4基础

09-20

总结，本文主要介绍了Python中BeautifulSoup4库的基础使用，包括安装、导入、创建BeautifulSoup对象，以及如何访问和提取HTML元素的方法。掌握这些基础知识，对于进行网页数据抓取和处理工作至关重要。通过实践和...

Python爬虫使用bs4方法实现数据解析

09-16

标题中的“Python爬虫使用bs4方法实现数据解析”指的是使用Python编程语言编写网络爬虫时，通过BeautifulSoup（简称bs4）库来解析网页HTML或XML文档，从而提取所需数据的过程。描述中提到，文章提供了详细的示例代码...

python爬虫之bs4数据解析的本地测试html源码

04-20

python爬虫之bs4数据解析的本地文档源码

BeautifulSoup 获取 a标签里的文本内容

12-21

说明想要获取 a标签里的单词如下所示。代码 from bs4 import BeautifulSoup f = open("word.txt", "r") # 设置文件对象 html = f.read() # 将txt文件的所有内容读入到字符串html中 soup = BeautifulSoup(html, 'lxml') # 获取a标签里的文本内容 for item in soup.find_all("a"): print(item.string) # 将单词写入five_star.txt 文件 with open('five_star.txt', 'a',

bs4爬取某网站

最新发布

weixin_48353691的博客

11-26

823

bs4,网页爬取步骤

Python爬虫初体验（1）：利用requests和bs4提取网站漫画

江澤妮可

07-18

1121

emm……真实的高三暑假是，整天无事可做然后找事，于是开始学习Python 好的废话不多说，进入正题由题，作为一名初学者，想要玩转爬虫这类玩意还要花很大功夫。所以我就从简单的开始：提取XKCD漫画（网页简单，提取方便）使用 requests 和 bs4 模块提取网页内容+分析html，然后再存入硬盘内首先，requests 和 bs4 都是 Python 的第三方库，使用 pip...

使用bs4库读取html文件,Python爬虫入门——利用bs4库对HTML页面信息进行遍历读取(示例代码)...

weixin_39630909的博客

06-16

629

内容整理自中国大学MOOC——北京理工大学-蒿天-基于bs4库的HTML页面遍历方法我们使用如下链接作为实验对象https://python123.io/ws/demo.html页面信息如下利用requests库爬取出网页的HTML完整代码1 importrequests2 r = requests.get("http://python123.io/ws/demo.html")3 demo =r....

python-(6-4-2)爬虫---利用bs4解析获得数据信息

oldboy1999的博客

11-14

820

python-(6-4-2)爬虫---利用bs4解析获得数据信息

用bs4完成html中标签中文本的爬取

Emmett Diary

03-11

644

其实还是为了昨天的工作（https://blog.csdn.net/Emmett_Bioinfo/article/details/114590394）。经过我查阅了一些资料，我发现用Selenium来做昨天这件事确实是大材小用了，因为获得文本内容其实只需要网页源代码，根本不需要把网页全部显示出来，昨天的做法对于这件事来说是又慢又吃力不讨好。今天学习了一下beautiful soup4干了这件事，代码如下： #!/bin/python3 #coding=utf-8 #from selenium impor

bs4获取html文档,如何使用BeautifulSoup bs4获取HTML标记的内部文本值？

weixin_35725310的博客

06-04

496

使用.text从标记中获取文本.oname = soup.find("title")oname.text或者只是soup.title.textIn [4]: from bs4 import BeautifulSoupIn [5]: import requestsIn [6]: r = requests.get("https://stackoverflow.com/questions/279343...