python 数据挖掘常用函数

最新推荐文章于 2024-05-24 11:35:30 发布

被推倒的穹妹

最新推荐文章于 2024-05-24 11:35:30 发布

阅读量439

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/sinat_24941421/article/details/80388412

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

import numpy as np # 多维数组对象和用于处理数组的例程集合组成的库导入文件中的数据

files = 'path'    path/xxx/xxx/xxx   路径写法
f =files    #你所要打开的特定目录的特定文件

with open(f,'r') as file:
   l1 = file.readlines()             #把文件中的每一行作为一个元素添加到列表l1上
print(l1[3])                          #假设你要读取第三行打印输出

X = np.loadtxt(f)
n_samples, n_features = X.shape
print("This dataset has {0} samples and {1} features".format(n_samples, n_features))
print(X[0:5])

---------------------------------------------------------------------------------

from collections import defaultdict    #好处是如果查找的键不存在，返回一个默认值。

valid_rules = defaultdict(int)   #defaultdict（int、list）

s = [('yellow',1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]

d =defaultdict(list)

for k,v in s:

d[k].append(v)

print(d.items()

从上面的结果可以看出，这种初始化功能非常适合用于统计几个key出现过那几个value。

而第二种初始化为int的方式则与此不同，它适合实现的不是统计key的所有value，

而是统计一个key出现过多少次。示范代码如下：

from collectionsimport defaultdict

s = 'mississippi'

d =defaultdict(int)

for k in s:

d[k] += 1

print(d.items())

[('i', 4), ('p',2), ('s', 4), ('m', 1)]

-----------------------------------------------------------------------------------------

from pprint import pprint

--------------------------------------------------------------------------

from operator import itemgetter

operator.itemgetter函数获取的不是值，而是定义了一个函数，通过该函数作用到对象上才能获取值。

a = [1,2,3] >>> b=operator.itemgetter(1)      //定义函数b，获取对象的第1个域的值>>> b(a)   2

sorted_support = sorted(support.items(), key=itemgetter(1), reverse=True)

sorted可以对list或者iterator进行排序

函数原型sorted(iterable, cmp=None, key=None, reverse=False) --> new sorted list

iterable：是可迭代类型;
cmp：用于比较的函数，比较什么由key决定,有默认值，迭代集合中的一项;
key：用列表元素的某个属性和函数进行作为关键字，有默认值，迭代集合中的一项;
reverse：排序规则. reverse = True（升序）或者 reverse = False（降序），有默认值。

返回值：是一个经过排序的可迭代类型，与iterable一样。

--------------------------------------------------------------------------

CSV （ Comma-Separated Values ，用逗号分隔数据项）

with open(data_filename, 'r') as input_file:
reader = csv.reader(input_file)

被推倒的穹妹

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录