作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。
邮箱:huang.tian-yuan@qq.com
在实际操作中,数据的收集与导入往往是整个过程的开始。如果大家用过其他软件处理文件,应该都有“转格式”的不良体验。所幸,R与Python已经有大量的工具能够帮助我们直接将不同类型的数据格式直接导入到工作环境中。这次我们将要介绍怎么把外部数据导入Python和R中,主要涉及csv/json/xml三种格式,最后将会简要介绍如何进行爬虫。部分数据可以在以下网页获得:
https://github.com/dipanjanS/practical-machine-learning-with-python/tree/master/notebooks/Ch03ProcessingWrangling_andVisualizingD
Python
读取csv
#加载pandas模块
import pandas as pd
#文件路径
prefix = "G:/Py/practical-machine-learning-with-python-master/notebooks/Ch03ProcessingWranglingandVisualizingData/" surfix = "samplecsv.csv" file_name = prefix + surfix
df = pd.readcsv(filename)
df
读取json
#加载json模块
import json
surfix = "samplejson.json" filename = prefix + surfix
jsonfiledata = open(filename).read() jsondata = json.loads(jsonfiledata)
json_data
得:
{'outer_col_1': [{'nested_inner_col_1': 'val_1', 'nested_inner_col_2': 2},
{'nested_inner_col_1': 'val_2', 'nested_inner_col_2': 2}],
'outer_col_2': {'inner_col_1': 3},
'outer_col_3': 4}
感兴趣的不妨看一下json_filedata里面放的是什么形式的数据
读取xml