数据科学入门_第九章_获取数据

获取数据

1 读取文件

文本文件基础
处理文本文件的第一步是通过 open 命令来获取一个文件对象:

# 'r' 意味着只读
file_for_reading = open('reading_file.txt', 'r')
# 'w' 是写入——会破坏已存在的文件!
file_for_writing = open('writing_file.txt', 'w')
# 'a' 是添加——加入到文件的末尾
file_for_appending = open('appending_file.txt', 'a')
# 完成以后别忘了关闭文件
file_for_writing.close()

with 程序块里操作文件,这样在结尾处文件会被自动关闭:

with open(filename,'r') as f:
	data = function_that_gets_data_from(f)
# 此时,f已经关闭了,别再试图使用它

如果需要读取一个完整的文本文件,可以使用 for 语句对文件的行进行迭代:

starts_with_hash = 0
with open('input.txt','r') as f:
for line in file: # 查找文件中的每一行
if re.match("^#",line): # 用正则表达式判断它是否以'#'开头
starts_with_hash += 1 # 如果是,计数加1

限制的文件
学一下pandas

2 网络抓取

学一下爬虫,scrapy

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
清华大学出品的R语言全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ (1)清华大学精品数据科学R语言全套课程PPT课件含习题(26页) 第1章 R语言绪论(1) (2)清华大学精品数据科学R语言全套课程PPT课件含习题(27页) 第2章 R语言入门 (3)清华大学精品数据科学R语言全套课程PPT课件含习题(53页) 第3章 数据模型 (4)清华大学精品数据科学R语言全套课程PPT课件含习题(15页) 第4章 数据准备 (5)清华大学精品数据科学R语言全套课程PPT课件含习题(66页) 第5章 数据可视化 (6)清华大学精品数据科学R语言全套课程PPT课件含习题(35页) 第6章 数据探索 (7)清华大学精品数据科学R语言全套课程PPT课件含习题(38页) 第7章 数据变换 (8)清华大学精品数据科学R语言全套课程PPT课件含习题(20页) 第8章 高级编程 (9)清华大学精品数据科学R语言全套课程PPT课件含习题(63页) 第9章 数据建模 (10)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第10章 数据评估 (11)清华大学精品数据科学R语言全套课程PPT课件含习题(21页) 第11章 影响大学平均录取分数线因素分析 (12)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第12章 收视率分析 (13)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第13章 RHadoop (14)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第14章 Rspark
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值