Python 文本挖掘：数据存储和读取

最新推荐文章于 2023-07-24 08:27:11 发布

wukk007

最新推荐文章于 2023-07-24 08:27:11 发布

阅读量2.4k

点赞数

分类专栏： python

python 专栏收录该内容

99 篇文章 1 订阅

订阅专栏

一、用Excel 存储数据

在使用爬虫软件LocoySpider（火车头采集器）把网站上的数据（商品评论和其它一些元数据）采集下来后，用Excel 保存。其形式如下：

Python 文本挖掘：数据存储和读取 - rzcoding - Explore in Data

不要问我为什么不用数据库存储，因为，不会啊。。。努力学习MySQL中。。。

当然，用Excel 存储也很方便，处理也不难，而且也可以直接在Excel 中实现排序，筛选各种简单操作，所以数据量不大的情况下，Excel 是可行的。

二、读取Excel 数据

要把Excel 中的数据读取到Python 中，需要使用xlrd 库。曾经我试过Python 自带的csv 库，但貌似出错了，时间久远已经忘记出错原因了。但xlrd 库读取数据完全没有问题，而且速度也不错。最重要的一点：

从xlrd 读取的数据是 unicode 编码的！

这样就不用像处理txt 文档时要解码才能在Python 中处理，而可以直接处理。Nice！

xlrd 库主要使用如下：

#! /usr/bin/env python
#coding=utf-8

import xlrd

table_data = xlrd.open_workbook('D:/code/Motorala ME525+_review_test.xlsx') #把整个Excel数据传给变量
table = table_data.sheet_by_index(0)  #取Excel其中一个工作表的数据，按索引取
col_data = table.col_values(3) #取列数据
raw_data = table.raw_values(2) #取行数据
row_num = table.nrows #取工作表的总行数

for i in col_data:
    print i  #循环遍历每一个数据

如果需要分析商品评论文本时，就取那一列的数据即可。