怎样将浏览器中的数据保存成csv格式文件

在学习神经网络的编程的过程中,准备训练网络的数据是一项不可缺少的工作,很多数据需要从网络上下载,并且还要将下载的数据保存成可以方便使用的格式。在学习python神经网路编程的过程中,训练手写数字图片的数据需要从网络上下载后使用,下载的网址:

https://raw.githubusercontent.com/makeyourownneuralnetwork/makeyourownneuralnetwork/master/mnist_dataset/mnist_train_100.csv

该网址并没有以文件下载的形式提供数据,而是直接将数据在浏览器中(微软Edge)打开,如下图所示:

训练数据需要保存成方便实用的csv格式,具体的操作流程如下:

1,首先将浏览器中的数据保存成txt格式:在edge浏览器中点击。。。然后选择在Internet Explorer打开,如下图所示

2,将浏览器中的数据保存为txt格式文件:在Internet explorer浏览器中选择右上角的齿轮设置图标,然后选择:文件>另存为,在弹出的对话框中将文件重新命名,如:mnist_train_100.txt,然后以默认编码UTF-8将文件保存。

3,将txt格式文件保存为csv格式文件:用记事本将刚才保存的文件打开,然后选择:文件>另存为,然后在弹出的对话框中直接将文件的后缀修改为csv,然后将编码修改为ANSI(非常重要),然后点击保存。

4,最后,用Exel打开csv文件,看是否如下图所示,数据一共100行,每一行是一副图像训练数据:数字标签+图像训练数据

 

Python,你可以使用requests库来获取网页内容,然后BeautifulSoup库来解析HTML并提取你需要的数据。对于猫眼电影这样的网站,首先需要检查其API是否开放,如果直接抓取可能会有反爬策略。如果没有API,可以尝试使用模拟浏览器访问的方式。 以下是一个简单的步骤说明: 1. 安装所需库: ``` pip install requests beautifulsoup4 pandas ``` 2. 使用`requests.get()`发送HTTP请求,并设置User-Agent以避免被识别为机器人: ```python import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } url = "https://movie.douban.com/j/chart/top_list" # 猫眼电影排行榜URL(这里假设是这个) response = requests.get(url, headers=headers) ``` 3. 解析响应内容: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') data = soup.find_all('div', class_='item') # 找到电影信息元素 ``` 4. 提取数据,这里假设每个电影的信息包含标题、评分等字段,可能需要自定义处理: ```python movie_data = [] for item in data: title = item.find('span', class_='title').text rating = item.find('span', class_='rating_num').text # 其他字段... movie_data.append([title, rating]) ``` 5. 将数据保存CSV文件: ```python import csv with open('movie_data.csv', 'w', newline='', encoding='utf-8') as file: writer = csv.writer(file) writer.writerow(['Title', 'Rating']) # 写入表头 writer.writerows(movie_data) ``` 请注意,实际操作可能需要根据猫眼电影的具体网页结构进行调整。此外,频繁抓取可能会对网站服务器造压力,所以务必遵守网站的robots.txt规则或者申请API授权。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值