python数据挖掘实战笔记——文本挖掘（1）：语料库构建

最新推荐文章于 2024-07-31 12:28:41 发布

小柴~

最新推荐文章于 2024-07-31 12:28:41 发布

阅读量9.6k

点赞数 5

分类专栏： python 文章标签： python数据挖掘

本文链接：https://blog.csdn.net/weixin_42695959/article/details/82840263

版权

本文介绍了文本挖掘的概念，强调了其在组织信息中的价值。接着，通过详细步骤展示了如何使用Python的os模块来搭建语料库，包括os.walk()方法的运用，以及如何将遍历的文件组织成数据框作为分析的基础。

摘要由CSDN通过智能技术生成

什么是文本挖掘？
　　文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。
一、搭建语料库
语料库：要进行文本分析的所有文档的集合。

需要用到的模块：os、os.path、codecs、pandas
代码如下：

import os
import os.path
import codecs
import pandas

filePaths = []
for root, dirs, files in os.walk(
    r"C:\Users\www12\Desktop\data\2.1\SogouC.mini\Sample"
):
#使用os.walk()方法遍历输出一个文件夹下的所有文件名

1.os.walk()方法：

os.walk() 方法用于通过在目录树中游走输出在目录中的文件名，向上或者向下。
语法:
walk()方法语法格式如下：

os.walk(top[, topdown=True[, οnerrοr=None[, followlinks=False]]])
参数:
> top – 是你所要遍历的目录的地址, 返回的是一个三元组(root,dirs,files)。

root 所指的是当前正在遍历的这个文件夹的本身的地址 dirs 是一个 list ，内容是该文件夹中所有的目录的名字(不包括子目录)
files 同样是 list , 内容是该文件夹中所有的文件名(不包括子目录) topdown --可选，为 True，则优先遍历 top
目录，否则优先遍历 top 的子目录(默认为开启)。如果 topdown 参数为 Tr