利用Python读取网络数据文件

最新推荐文章于 2024-07-06 00:50:12 发布

xsimah

最新推荐文章于 2024-07-06 00:50:12 发布

阅读量1.4w

点赞数 3

分类专栏： Python系列 Jupyter Notebook 大数据分析文章标签：网络数据 StringIO Reader Python

本文链接：https://blog.csdn.net/qq_24452475/article/details/79210747

版权

Python系列同时被 3 个专栏收录

51 篇文章 2 订阅

订阅专栏

大数据分析

48 篇文章 0 订阅

订阅专栏

Jupyter Notebook

20 篇文章 0 订阅

订阅专栏

场景

在实践机器学习算法过程中，有的数据源可以通过网络获取。于是，想利用Python代码直接加载到程序中，省去下载的操作。一方面是可能是由于懒，另一方面还可以秀一下“肌肉”，哈哈哈 …
作为一名实在的假“程序猿”，手动下载资源如果被小弟们看到，太跌份儿不是！
开发工具
- Anaconda 2
- Python 3

描述

在贝叶斯分类器学习过程中，积累了问题。
文章涵盖以下3方面内容：
- 通过 Python 代码实现网络数据的加载、保存等操作
- 代码中相关方法、模块的具体使用
- 机器学习过程中常用的数据集推荐
实验数据集
- pima-indians.data.csv

代码

# python 3

import csv
import pandas as pd
from io import StringIO
from urllib import request


url='https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data'
s = request.urlopen(url).read().decode('utf8')  # 1 读取数据串

dfile = StringIO(s)      # 2 将字符串转换为 StringIO对象，使其具有文件属性 
creader = csv.reader(dfile)  # 3 将流 转换为可迭代的 reader（csv row）
dlists=[rw for rw in creader]  # 4 其他转换、操作

数据效果

开放数据集

时间序列数据的网址
- http://www.stat.wisc.edu/~reinsel/bjr-data/
评分数据集
- http://www.grouplens.org/
- 基本数据描述：
  - 包括以下三个数据集：
    - a. 943个用户对1682个电影的10万条评分
    - b. 6040个用户对3900个电影的1百万条评分
    - c. 71567个用户对10681个电影的1千万条评分
Book-Crossing书籍评分数据
- http://www.informatik.uni-freiburg.de/~cziegler/BX/
  - 基数数据描述：
    - 包含了278,858个用户对271,379本书籍的1,149,780条评分。
    - 该数据集由Cai-Nicolas Ziegler在2004年8 - 9月用4周的时间从Book-Crossing社区用网络爬出。
Jester笑话数据集笑话评分集合
- http://www.ieor.berkeley.edu/~goldberg/jester-data/
- 来自UC Berkeley的Ken Goldberg发布的一个推荐系统使用的数据集。
- 包含关于100个笑话的73,496名用户评分的410万条连续评分。
GPS轨迹数据
- http://research.microsoft.com/en-us/downloads/b16d359d-d164-469e-9fd4-daa38f2b2e13/default.aspx
GPS轨迹与运输模式标签
- http://research.microsoft.com/apps/pubs/?id=141896
Movebank动物轨迹
- http://www.movebank.org/
手机WIFI蓝牙
- http://crawdad.cs.dartmouth.edu/
手机和wifi的轨迹
- http://crowdflow.net/
【注】
- 后续有机会,统一整理数据集url.

参考

xsimah

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
利用Python读取网络数据文件

场景在实践机器学习算法过程中，有的数据源可以通过网络获取。于是，想利用Python代码直接加载到程序中，省去下载的操作。一方面是可能是由于懒，另一方面还可以秀一下“肌肉”，哈哈哈 …作为一名实在的假“程序猿”，手动下载资源如果被小弟们看到，太跌份儿不是！开发工具 Anaconda 2Python 3描述在贝叶斯分类器学习过程中，积累了问题。文章涵盖以下3方面内容：
复制链接

扫一扫