R与Python手牵手:多格式文件导入与爬虫

本文介绍了如何在R和Python中导入csv、json、xml格式的数据,并简要讲解了Python的爬虫初步知识,包括使用requests模块请求网页数据。同时,文章提到了R语言中使用httr包进行网络请求以及rvest包进行静态网页爬取的基本操作。
摘要由CSDN通过智能技术生成

640?wx_fmt=gif

作者黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。

邮箱:huang.tian-yuan@qq.com


在实际操作中,数据的收集与导入往往是整个过程的开始。如果大家用过其他软件处理文件,应该都有“转格式”的不良体验。所幸,R与Python已经有大量的工具能够帮助我们直接将不同类型的数据格式直接导入到工作环境中。这次我们将要介绍怎么把外部数据导入Python和R中,主要涉及csv/json/xml三种格式,最后将会简要介绍如何进行爬虫。部分数据可以在以下网页获得:

https://github.com/dipanjanS/practical-machine-learning-with-python/tree/master/notebooks/Ch03ProcessingWrangling_andVisualizingD

Python

读取csv

#加载pandas模块
import pandas as pd


#文件路径
prefix = "G:/Py/practical-machine-learning-with-python-master/notebooks/Ch03ProcessingWranglingandVisualizingData/" surfix = "samplecsv.csv" file_name = prefix + surfix
df = pd.readcsv(filename)
df

640?wx_fmt=png

读取json

#加载json模块
import json
surfix = "samplejson.json" filename = prefix + surfix
jsonfiledata = open(filename).read() jsondata = json.loads(jsonfiledata)
json_data

得:

{'outer_col_1': [{'nested_inner_col_1': 'val_1', 'nested_inner_col_2': 2},
  {'nested_inner_col_1': 'val_2', 'nested_inner_col_2': 2}],
 'outer_col_2': {'inner_col_1': 3},
 'outer_col_3': 4}

感兴趣的不妨看一下json_filedata里面放的是什么形式的数据

读取xml

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值