Python数据操作—处理非结构数据

本文介绍了如何处理非结构化数据,如HTML、纯文本文件等。通过Python库,我们可以读取并分析这些数据。以一个文本文件为例,展示了读取文件内容、分割行和单词,以及计算单词频率的方法。
摘要由CSDN通过智能技术生成

已经以行和列格式存在的数据或者可以很容易地转换为行和列的数据,以便之后它可以很好地适合数据库,这被称为结构化数据。 例如CSV,TXT,XLS文件等。这些文件有一个分隔符,固定宽度或可变宽度,其中缺失值在分隔符之间表示为空白。 但有时候我们会得到一些行不是固定宽度的数据,或者它们只是HTML,图像或pdf文件。 这些数据被称为非结构化数据。 尽管可以通过处理HTML标签来处理HTML文件,但是来自Twitter的提要或来自新闻提要的纯文本文档可以在不具有分隔符的情况下不具有要处理的标签。 在这种情况下,我们使用来自各种python库的不同内置函数来处理文件。

读取数据

在下面的例子中,我们获取一个文本文件并读取文件,将文件中的每一行分隔开来。 接下来可以将输出分成更多的行和单词。 原始文件是一个包含描述Python语言的段落的文本文件。
原始文件input.txt内容为:

Python is an interpreted high-level programming language for general-purpose programming. Created by Guido van Rossum and first released in 1991, Python has a design philosophy that emphasizes code readability, notably using significant whitespace. It provides constructs that enable clear programming on both small and large scales.
Python features a dynamic type system and automatic memory management. It supports multiple programming paradigms, including object-oriented, imperative, functional and procedural, and has a large and comprehensive standard library.
Python interpreters are available for many operating systems. CPython, the reference implementation of Python, is open source software and has a community-based development model, as do nearly all of its variant implementations. CPython is managed by the non-profit Python Software Foundation.

读取每行的代码:

filename = 'input.txt'
with 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值