机器学习实战（代码部分）-- k近邻算法（Ⅱ 将文本数据转换为Numpy的解析程序）

最新推荐文章于 2022-09-26 22:00:39 发布

m0_38056893

最新推荐文章于 2022-09-26 22:00:39 发布

阅读量247

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/m0_38056893/article/details/102730126

版权

机器学习专栏收录该内容

92 篇文章 17 订阅

订阅专栏

2-2 将文本数据转换为Numpy的解析程序

一. python中file相关操作

1.open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None,closefd=True, opener=None)
	open()：用于打开一个文件，并返回文件对象。如果该文件无法被打开，会抛出 OSError。
	注意：使用 open() 方法一定要保证关闭文件对象，即调用 close() 方法。
	open() 函数常用形式是接收两个参数：文件名(file)和模式(mode)。


2.fileObject.readlines()
	readlines() 方法用于读取所有行(直到结束符 EOF)并返回列表，该列表可以由 Python 的 for... in ... 结构进行处理。
	如果碰到结束符 EOF 则返回空字符串。

案例：

（1）file.py代码

def fileToMatrix(filename):
    file = open(filename)
    # 读取所有行(直到结束符 EOF)并返回列表
    contents = file.readlines()
    print('文件内容：', contents)
    contentsLen = len(contents)
    print('文件行数：', contentsLen)

    print('************* 打印每行文件内容 *************')
    for content in contents:
        content = content.strip()
        listFromLine = content.split('\t')
        print(listFromLine)


if __name__ == "__main__":
    fileToMatrix('1.txt')

（2）同级目录下的1.txt文件：

1 a b
2 c d
3 e f
4 g h
5 i j
6 k l
***
@@@
$$$

（3）运行效果：

文件内容： ['1 a b\n', '2 c d\n', '3 e f\n', '4 g h\n', '5 i j\n', '6 k l\n', '***\n', '@@@\n', '$$$']
文件行数： 9
************* 打印每行文件内容 *************
['1 a b']
['2 c d']
['3 e f']
['4 g h']
['5 i j']
['6 k l']
['***']
['@@@']
['$$$']

二. 将文本记录转化为Numpy的函数

（1）文本记录如下（1.txt），有一千条记录。其中前三列为特征，后一列为类别：

（2）函数实现如下：

def fileToMatrix(filename, featuresCount):
    file = open(filename)
    contents = file.readlines()
    contentLines = len(contents)
    returnMat = np.zeros((contentLines, featuresCount))
    classLabelVector = []
    index = 0

    for line in contents:
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index, :] = listFromLine[0:featuresCount]
        catagory = listFromLine[-1]

        catagoryNum = -1
        if catagory == 'largeDoses':
            catagoryNum = 1
        elif catagory == 'smallDoses':
            catagoryNum = 2
        else:
            catagoryNum = 3
        classLabelVector.append(catagoryNum)
        index += 1
    return returnMat, classLabelVector

（3）完整代码：

import numpy as np


def fileToMatrix(filename, featuresCount):
    file = open(filename)
    contents = file.readlines()     # 读取文本内容
    contentLines = len(contents)    # 读取文本内容的行数
    returnMat = np.zeros((contentLines, featuresCount))     # zeros((3,4))：构造3*4的零矩阵
    classLabelVector = []       # 用于存放类别
    index = 0

    for line in contents:
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index, :] = listFromLine[0:featuresCount]
        catagory = listFromLine[-1]

        catagoryNum = -1
        if catagory == 'largeDoses':
            catagoryNum = 1
        elif catagory == 'smallDoses':
            catagoryNum = 2
        else:
            catagoryNum = 3
        classLabelVector.append(catagoryNum)
        index += 1
    return returnMat, classLabelVector


if __name__ == "__main__":
    returnMat, classLabelVector = fileToMatrix('1.txt', 3)
    print(returnMat)
    print(classLabelVector)

（4）运行结果：

查看下一节：机器学习实战（代码部分）-- k近邻算法（Ⅲ 归一化特征值）

m0_38056893

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战（代码部分）-- k近邻算法（Ⅱ 将文本数据转换为Numpy的解析程序）

2-2将文本数据转换为Numpy的解析程序一. python中file相关操作1.open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None,closefd=True, opener=None) open()：用于打开一个文件，并返回文件对象。如果该文件无法被打开，会抛出 OSError。 ...
复制链接

扫一扫

专栏目录