【python系列】使用 BeautifulSoup 获取 meta 信息

最新推荐文章于 2021-08-16 15:57:41 发布

sina微博_SNS程飞

最新推荐文章于 2021-08-16 15:57:41 发布

阅读量1.3w

点赞数 4

分类专栏： python 文章标签： bs4 BeautifulSoup meta

本文链接：https://blog.csdn.net/ksearch/article/details/34118593

版权

python 专栏收录该内容

49 篇文章 1 订阅

订阅专栏

获取title、description、keywords的信息。

代码

获取title信息

title = soup.title.string

获取description、keywords的信息

关键代码：

page = urllib2.urlopen(url)
charset = page.headers['Content-Type'].lower().split("charset=")[1]
content = page.read().decode(charset, "ignore").encode("utf-8",'ignore')
soup = BeautifulSoup(content)

description = soup.find(attrs={"name":"description"})['content']
keywords = soup.find(attrs={"name":"keywords"})['content']

注意有的网站并没有这两个信息，有时网站的keywords不为小写。

参考资料

1. Get data from the meta tags using BeautifulSoup

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sina微博_SNS程飞

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python使用Beautiful Soup解析html获取元素并提取内容值

qq_40985985的博客

03-09

713

【代码】Python使用Beautiful Soup解析html获取元素并提取内容值。

Python：BeautifulSoup库介绍

不怕猫的耗子A

05-12

2126

1、BeautifulSoup是Python中的一个第三方库，其最主要的功能是处理HTML文档⑴查找HTML文档中的指定标签⑵获取HTML文档中指定标签的标签名、标签值、标签属性等⑶修改HTML文档中指定标签2、BeautifulSoup库将HTML文档解析为一个对象，使用该对象方法能很方便的获取HTML文档中的数据3、BeautifulSoup库也可以用来处理XML文档。

参与评论您还未登录，请先登录后发表或查看评论

爬虫——Python爬虫（BeautifulSoup）遇到拿meta标签

老简单题

12-14

2381

解决方案：一般拿标签是bs.find("div",class_="haha") 而meta标签不能通过bs.find('meta',name='haha') 而是bs.find(attrs={"name":"haha"})['content']

Python爬虫教程-23-数据提取-BeautifulSoup4（一）

热门推荐

肖朋伟

08-30

1万+

Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据，查看文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Python爬虫教程-23-数据提取-BeautifulSoup4 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能它是一个...

python 读取mat文件

weixin_30571465的博客

09-07

import osimport scipy.io as sio import numpy as np #matlab文件名 matfn='/home/user/devkit/data/meta_det.mat' data=sio.loadmat(matfn) 转载于:https://www.cnblogs.com/jianyingzhou/p/4787930.html...

python中解析html中的meta（title,description,keywords）信息

liuzh的博客

07-23

3617

html中的meta信息往往包含title,description,keywords,下面通过BeautifulSoup来解析meta信息 from bs4 import BeautifulSoup from selenium import webdriver def main(): driver = webdriver.Chrome() driver.get('https:/...

bat与python脚本联合解析JPG的meta信息

liaokesen168的博客

08-16

561

1.首先编写bat脚本调用高通工具解析当前目录下所有JPG图片并生成meta文件：上代码：文件名：CreateMetaFile.bat @echo off echo "analyze JPG to meta file!" for /r . %%i in (*.jpg) do ( echo %%i C:\Qualcomm\Chromatix7\7.3.1.18\Simulator\Spectra580\QualcommSpectraSim580.exe -metaparse %%i )

Python3 使用beautifulsoup解析微信文章

xiaoxiao_wang1的博客

06-08

1602

1.微信文章内容结构分析注：只能采集图文文章，视频、语音无法采集 1）分享相关 <meta property="og:title" content="微信分享标题" /> <meta property="og:url" content="分享链接" /> <meta property="og:image" content="分享图片url" /> <meta property="og:description" content="分享描述" /> 2

python爬虫如何解析jsp文件_Python爬虫，使用BeautifulSoup解析页面结果

weixin_39996134的博客

12-04

1291

Python爬虫，使用BeautifulSoup可以轻松解析页面结果，下面是使用该方法爬取boss页面的职位信息：包括职位名称、薪资、地点、公司名称、公司融资情况等信息。通过这个示例可以轻松看到BeautifulSoup的使用方法。import requestsfrom bs4 import BeautifulSoupfrom middlewares import get_random_proxy...

爬取网页内所有的url和meta标签，title标签

计算机菜鸟

07-11

6852

这个东西实际是最基础的东西，但是也是遇到了很多的坑，在这里记录如下。此时我手里有了各种网页，从网上用wget工具下载的各种网页源码文件，大多是html文件，有的是php等等，都能使用html的格式打开。为了的提出网页里面的所有信息建立图表，为以后的数据挖掘做准备。明白目的之后，首先是相对于其他爬虫有点不同的是有了网页源码。省去了下载的环节第一步使用python将网页的源码打

python 爬虫标签文本beautifullsoup_Python常用爬虫代码总结方便查询

weixin_42116705的博客

02-19

333

beautifulsoup解析页面from bs4 import beautifulsoupsoup = beautifulsoup(htmltxt, "lxml")# 三种装载器soup = beautifulsoup("", "html.parser")### 只有起始标签的会自动补全，只有结束标签的会自动忽略### 结果为：soup = beautifulsoup("", "lxml")##...

BeautifulSoup参数设置

IT_shy的博客

08-21

2355

这里写自定义目录标题BeautifulSoup参数设置新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 BeautifulSoup参数设置 #输出所得标签的‘’属性值获取 head里面的第一个meta的content值

初识爬虫三：xpath和BeautifulSoup

yw1013的博客

06-08

360

1、print（soup.find_all("a")）#根据字符串查找所有的a标签，返回一个结果集（bs4下特有的数据类型，与列表类似，里面的数据没有单引号或双引号），里面装的是标签对象，通过for循环打印；result=html.xpath("//meta/li[@name='renderer']")#获取meta标签下属性为name='renderer所对应li标签下的的值；result=html.xpath("//first//li")#//li中的//表示在first标签下的所有层级下的li标签。

python数据抓取与分析案例_python数据抓取分析的示例代码（python + mongodb）

weixin_39736047的博客

12-16

340

本文介绍了Python数据抓取分析，分享给大家，具体如下：编程模块：requests,lxml，pymongo，time，BeautifulSoup首先获取所有产品的分类网址：def step():try:headers = {。。。。。}r = requests.get(url,headers,timeout=30)html = r.contentsoup = BeautifulSoup(htm...

python爬虫beautifulsoup详细教程

qq_36608036的博客

08-06

2757

BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据，Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，但lxml 解析器更加强大，速度更快，推荐使用lxml 解析器。 BeautifulSoup4和 lxml 一样，Beautiful Soup 也是

python中description_Python爬虫之公司网站首页Title、Keywords、Description

weixin_39992788的博客

12-10

584

Python学习-------bs4解析（一）

太阳爱编程

08-26

786

BeautifulSoup中文文档：https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#Parsing%20HTML 前言我们已经可以用requests库来和网页做一些简单的交互工作，比如说get到url中的一些内容，但是我们可以看到，无论是r.text还是r.content，我们得到的...

python采集文章_Python多线程采集网站title/description/keywords

weixin_39631094的博客

11-26

200

本文信息本文由方法SEO顾问发表于2015-06-0815:50:03，共 1417 字，转载请注明：Python多线程采集网站title/description/keywords_【方法SEO顾问】，如果我网站的文章对你有所帮助的话，来百度口碑给个好评呗！手中有一个20W的URL列表的TXT文件，想把这20W的页面的title/description/keywords都提取出来，shell只能单...

基于Python、requests、bs4库爬取百科词条

CoolCv的博客

04-18

652

基于Python、requests、bs4库爬取百科词条@[TOC] 一、分析百科词条URL(这里写自定义目录标题) 二、利用requests获取响应三、利用bs4库解决html 四、分析具体节点，提取所需信息欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdo...

python 解析meta标签