python批量爬取网页数据_python批量爬取xml文件

最新推荐文章于 2023-01-10 21:58:41 发布

weixin_39940688

最新推荐文章于 2023-01-10 21:58:41 发布

阅读量211

点赞数

文章标签： python批量爬取网页数据

python批量爬取xml文件

发布时间：2020-06-11 21:40:41

来源：51CTO

阅读：695

1.网站链接：https://www.cnvd.org.cn/shareData/list

2.需要下载的页面文件：

3.该页面需要登陆，然后批量下载共享漏洞文件，我们就通过cookie来实现。

#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""

Date: 2019-08-17

Author: Bob

Description: python爬取xml文件

"""

import requests

from bs4 import BeautifulSoup

def cnvd_spider():

url = 'https://www.cnvd.org.cn/shareData/list?max=240&offset=0'

headers = {

"Cookie": "__jsluid_s=65d5e7902f04498e89b16e93fb010b3c; __jsluid_h=1ab428e655aee36ac3c9835db29b6714; JSESSIONID=91BB91B37543D365AA64895EDFCD828F; __jsl_clearance=1566003116.655|0|CYPFsKirGYBG12qtoOrS5Kq1rM0%3D",

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",

}

html = requests.get(url=url, headers=headers).text

soup = BeautifulSoup(html, 'lxml')

links = soup.find_all('a', attrs={'title': '下载xml'})

for link in links:

url = 'https://www.cnvd.org.cn' + link.get('href')

file_name = link.get_text()

html_data = requests.get(url=url, headers=headers)

with open(file_name, 'w') as f:

f.write(html_data.content)

if __name__ == '__main__':

cnvd_spider()

优惠劵

weixin_39940688

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python批量爬取网页数据_python批量爬取xml文件

python批量爬取xml文件发布时间：2020-06-11 21:40:41来源：51CTO阅读：6951.网站链接：https://www.cnvd.org.cn/shareData/list2.需要下载的页面文件：3.该页面需要登陆，然后批量下载共享漏洞文件，我们就通过cookie来实现。#!/usr/bin/env python# -*- coding: utf-8 -*-"""Date:...
复制链接

扫一扫

python订单详细教程-python京东商品订单提交

weixin_37988176的博客

11-01

2159

import requestsimport timerequests.packages.urllib3.disable_warnings()session = requests.session()session.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit...

利用python抓取小说，爬虫抓取小说

最新发布

weixin_42759398的博客

04-07

341

选择你想看的小说后，在地址栏会出现一个数字，举例：“https://www.bqg70.com/book/3315/”https://www.bqg70.com/ 首先进入这个网址，进入笔趣阁官网。pip install parsel pip install requests pip install prettytable 4.运行代码，输入这个数字，即可下载对应的小说。那个数字请复制好，例如：”3315”

参与评论您还未登录，请先登录后发表或查看评论

python批量读取xml并处理（超简单）

weixin_47994684的博客

11-21

4508

必要了解的一些xml知识点：每个XML文档必须有且只有一个根元素根元素是一个完全包括文档中其他所有元素的元素根元素的起始标记要放在所有其他元素的起始标记之前根元素的结束标记要放在所有其他元素的结束标记之后 XML元素指的是XML文件中出现的标签，一个标签分为开始标签和结束标签（和html很想，一个组件一个组件套着的）接下来开始实现xml的批量读取：笔者处理的xml文件如下所示：需要做的是获取每一张图片的<object>数量使用xml.dom.minidom包 import x

要想过年不被催相亲，用python采集相亲网数据行动起来

2301_76201613的博客

01-10

353

马上过年拉，现在再家，不是父母催找男（女）朋友就是父母催相亲，那是一个着急啊！与其父母一直催，不如我们自己先行动指不定就遇到自己的心动真爱了呢今天我们就来用python看看相亲网都有哪些优质妹妹吧~

python 获取xml数据

天道酬勤、业道酬信！

03-11

587

class XmlFileProcess(object): """ :xml文件请求与解析 """ def __init__(self): self.Url = 'http://127.0.0.1：3389/test.asmx' def post_xml(self, url_code, p...

10-03

python爬虫爬取网页表格数据

09-20

主要为大家详细介绍了python爬虫爬取网页表格数据，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

python爬虫爬取网页数据并解析数据

09-24

主要介绍了python爬虫如何爬取网页数据并解析数据，帮助大家更好的利用爬虫分析网页，感兴趣的朋友可以了解下

Python实现爬取网页中动态加载的数据

09-16

主要介绍了Python实现爬取网页中动态加载的数据，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

python数据挖掘简单实例.zip_51job_python数据爬取和清理_python爬_rushezj

07-14

python数据爬取和分析，爬取51job的python词条数据并进行数据清理

xpath提取xml文档数据

每天进步一点点

09-27

1192

public class Demo4 { public static void main(String[] args) throws Exception { SAXReader reader = new SAXReader(); Document document = reader.read(new File("src/book.xml")); String va

python request xml

DAo_1990的博客

04-12

3664

问题对于ajax请求，很多人无从下手，包括用python 实现其请求。办法其实第一步是分析本页面调用js。可以通过chrome去F12查看。找到需要请求的代码。例如登陆login.js 然后使用ctrl+F查找ajax。可以看到请求方式post或者get。甚至大家可以chrome在线调试js。观看其提交数据。 python get_ajax.pyimport requests aj

Python批量读取XML文件内容截取字符串保存

u013934107的博客

04-14

2392

#coding=utf-8 import os #其中os.path.splitext()函数将路径拆分为文件名+扩展名 '''def file_name(file_dir): L=[] for root,dirs,files in os.wait(file_dir): for file in files: if os.path.split...

【学习笔记】使用python批量读取并修改xml文件

热门推荐

野生C++程序员

11-13

1万+

在大老板的安排下最近在某公司实习，实习期间要求实现一个图像识别模块的封装。无奈基础太薄弱，只能将任务细分，单独学习来实现。以此为背景…… 本篇目标：通过python批量访问并修改xml文件。目前，存在的问题是，标注好一批图片后，若改变图片尺寸，则原始的xml文件中的bnbbox数据作废，针对改变尺寸后的图片还得重新标注。费事费力，在模块封装任务中也必须解决这个问题。因此，目前急需实现批量修改...

【学习笔记】使用python批量读取并修改xml文件（2）

野生C++程序员

11-13

1903

在大老板的安排下最近在某公司实习，实习期间要求实现一个图像识别模块的封装。无奈基础太薄弱，只能将任务细分，单独学习来实现。以此为背景…… 这一篇记录一些在实际使用中踩到的坑。在实际使用中，我在A文件夹下对图片进行了标注，随后将图片移动到B文件夹下。那么相应的，标注后的xml文件中，<path>标签的值就应该修改。最初的思路是，我遍历了xml文件，那么我只需要将‘新地址’+xml文...

Python爬虫Xpath检索XML文件

MarconiYe的博客

03-08

1274

首先下载lxml模块： pip install lxml 导入lxml中的etree模块: from lxml import etree 解析XML字符串或者HTML等文件: 解析XML字符串 xml = ''' <body> <div> <ul> <li class="python">Python</li> <li class="pachong">爬虫</li> .

Python爬虫编程思想（76）：读取与搜索XML文件

一个被知识诅咒的人

11-11

357

在上一篇文章中只讲了如何读取XML文件，这些XML文件可能是手工录入的，也可能是其他程序生成的，不过更有可能是当前的程序生成的。生成XML文件的方式很多，可以按字符串方式生成XML文件，也可以按其他方式生成文件。本节将介绍一种将Python语言中的字典转换为XML文件的方式。通过这种方式，可以实现定义一个字典变量，并为该变量设置相应的值，然后再将该字典变量转换为XML文件。将字典转换为XML文件需要使用dicttoxml模块中的dicttoxml函数，...

爬虫快速上手之requests模块、互联网图片抓取、xpath的使用

Athena的博客

09-14

261

一、requests模块 1.res = requests.get(url, headers) 返回值res是requests.models.Response类对象 2.requests模块res属性对应 urllib.request模块res的方法： res.text -> res.read().decode('utf8) tes.content -> res.read() tes.status_code -> res.getcode() res.url -> res

python爬取数据教程_python爬虫爬取网页数据并解析数据

06-09

好的，下面是一个简单的Python爬虫爬取网页数据并解析数据的教程： 1. 确定目标网站和要爬取的信息首先，需要确定要爬取的网站和要提取的信息。可以使用Python的requests库向网站发送HTTP请求获取HTML源代码，并使用BeautifulSoup库解析HTML文档获取目标数据。例如，我们要爬取CSDN博客的文章标题和链接，可以先打开CSDN博客主页，右键查看网页源代码，找到文章标题和链接所在的HTML标签。 2. 发送HTTP请求获取HTML源代码接下来，使用Python的requests库向网站发送HTTP请求，获取HTML源代码。 ``` import requests url = 'https://blog.csdn.net/' response = requests.get(url) html = response.text ``` 3. 解析HTML文档获取目标数据使用BeautifulSoup库解析HTML文档，获取目标数据。 ``` from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') titles = soup.find_all('div', class_='title') for title in titles: link = title.find('a').get('href') title_text = title.find('a').text.strip() print(title_text, link) ``` 上述代码中，通过`find_all`方法找到所有class属性为"title"的div标签，然后在每个div标签中找到第一个a标签，获取链接和标题文本。 4. 完整代码 ``` import requests from bs4 import BeautifulSoup url = 'https://blog.csdn.net/' response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'html.parser') titles = soup.find_all('div', class_='title') for title in titles: link = title.find('a').get('href') title_text = title.find('a').text.strip() print(title_text, link) ``` 以上就是一个简单的Python爬虫爬取网页数据并解析数据的教程。需要注意的是，在爬取网站数据时要遵守网站的爬虫协议，避免被网站封禁IP。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交