数据挖掘-语料库的构建

语料库:是我们要分析的所有文档的集合

使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称

 

1、导入模块

import os   
import os.path

filePaths=[]    #建立一个空的列表来存放语料库的文件名称,数组变量
for root,dirs,files in os.walk(     
    "D:\\Python\\Python数据挖掘\\2.1\\SogouC.mini\\Sample"):
    for name in files:
        filePaths.append(os.path.join(root,name))

 使用os.walk传入这个目录作为参数,遍历该文件夹下的全部文件,该方法返回一个Truple的数组,第一个root是文件所在目录,第二个是root文件下的子目录命名为dirs,第三个root文件下的所有文件命名为files

拼接文件路径(可解决不同系统下的的文件拼接)

os.path.join(root,name)

 

2、把第一步的文件路径下的内容读取到内存中

 

import codecs

filePaths=[]
fileContents=[]
filenames=[]
for root,dirs,files in os.walk(
    "D:\\Python\\Python数据挖掘\\2.1\\SogouC.mini\\Sample"):
    for name in files:
        filePaths.append(os.path.join(root,name))
        filePath=os.path.join(root,name)
        f=codecs.open(filePath,"r",encoding="utf-8")
        fileContent=f.read()   #读取内容后关闭
        fileContents.append(fileContent)

 

使用codecs.open(filePath,method,encoding)来打开文件,然后用文件的read()方法

 

3、把读取到的内容变成一个数据框

import pandas
corpos=pandas.DataFrame({
        "filePath":filePaths,
        "fileContent":fileContents,
        "class":filenames})

 

转载于:https://www.cnblogs.com/U940634/p/9735681.html

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值