2018年06月_ninnyyan

原创【Python】*args和**kwargs

使用*args和**kwargs可以非常方便的定义函数，同时增强代码的可扩展性，方便代码维护。1.*args*args 用在不确定传入参数个数的情况下。且以元组方式呈现。比如下面的例子：def myfunction(*args): print(*args[0]) print(*args[1]) print(*args[2])if __name__ == '_...

2018-06-22 10:36:15 232

原创【Python】类的继承（super().init）

一个简单的例子，包括了父类的创建，子类的继承，子类构造方法的书写，和子类对父类方法的重写。class Animal(object): def __init__(self,name,feature): self.name = name self.feature = feature def eat(self): print('ani...

2018-06-21 17:53:49 450

原创【Python】csv文件的读写（pandas，csv两种方式）

在使用python处理数据的过程中，经常需要做一些数据读取和写入的工作，比较常用的数据格式是csv，csv文件是一种以逗号分割字符的文件形式例如：demo.csv，一个很简单的csv文件 name,score alex,1 jon,2 sansa,3读写csv文件常用的有两种方式，一种是使用csv，一种是使用pandas1 使用pandas进行读写读pandas...

2018-06-21 17:31:14 60125 2

原创 sklearn学习：性别分辨模型2: 优化和评估

上一篇博客中，写到训练了一个分辨性别的模型。用自己分类的数据进行模型训练时，准确率达到90%以上。但是用另一个训练数据集，准确率只有80%多一点。因此在优化和评估方面做了一些工作。1.优化1.清理数据把所有预测错误的数据全部找出来进行观察，发现有些数据并不是目标特征数据，这里使用的是商品的brand，但数据集中存在不是brand的信息，因此要进行剔除。等等类似的工作。2.优...

2018-06-06 16:53:49 977

转载【Python】十进制转二进制

base = [str(x) for x in range(10)] + [ chr(x) for x in range(ord('A'),ord('A')+6)]def dec2bin(string_num): num = int(string_num) mid = [] while True: if num == 0: break ...

2018-06-06 16:27:59 13777

原创 sklearn学习：训练一个分辨性别的模型

最近在学习sklearn，动手实现了一个根据名称分辨性别的模型。感觉还是蛮有趣的。这个是参考的链接（英文），Working with Text Data仿照这个教程上的步骤一步步建立自己的模型。Version11.准备训练数据将csv中的record读入，使用pandas。为了在文本文档上执行机器学习，我们首先需要将文本内容转换为数字特征向量。可以将名称分为单词袋（...

2018-06-06 14:27:13 1884

翻译 sklearn学习：roc_auc曲线和 metrics.roc_auc_score

1.概念ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣。AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候...

2018-06-06 11:33:57 31465

原创 sklearn学习：train_test_split

train_test_split 是sklearn中一个用来随机分割train，test数据集的工具sklearn.model_selection.train_test_split(*arrays, **options)[source]需要注意的参数包括，1. test_sizetest_size的参数类型可能有多种：如果为float型，需要介于0.0到1.0之间，表示要分...

2018-06-04 14:43:08 1357

原创【Python】Numpy：如何找到list中的np.nan值

这个问题源于在训练机器学习的一个模型时，使用训练数据时提示prepare的数据中存在np.nan报错信息如下L： ValueError: np.nan is an invalid document, expected byte or unicode string. 刚开始不知道为什么会有这个，后来发现是list中存在nan值下面是找到nan值的方法：简单找到：import nu...

2018-06-04 11:12:15 35110

原创【Python】string和bytes数据类型之间的转换

一个很简单的问题，但是曾经因为这个很闹心了一会，把简单的解决方案记录在这里，方便日后查看。string = 'adidas NMD_XR1 Shoes - Grey | adidas UK'print('type of string: ',type(string))# string to bytesnew = string.encode(encoding='unicode-escape'...

2018-06-04 10:47:38 1736

ninnyyan的博客