自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ninnyyan的博客

学而不思则罔,思而不学则殆。

  • 博客(10)
  • 收藏
  • 关注

原创 【Python】*args和**kwargs

使用*args和**kwargs可以非常方便的定义函数,同时增强代码的可扩展性,方便代码维护。1.*args*args 用在不确定传入参数个数的情况下。且以元组方式呈现。比如下面的例子:def myfunction(*args): print(*args[0]) print(*args[1]) print(*args[2])if __name__ == '_...

2018-06-22 10:36:15 231

原创 【Python】类的继承(super().__init__)

一个简单的例子,包括了父类的创建,子类的继承,子类构造方法的书写,和子类对父类方法的重写。class Animal(object): def __init__(self,name,feature): self.name = name self.feature = feature def eat(self): print('ani...

2018-06-21 17:53:49 450

原创 【Python】csv文件的读写(pandas,csv两种方式)

在使用python处理数据的过程中,经常需要做一些数据读取和写入的工作,比较常用的数据格式是csv,csv文件是一种以逗号分割字符的文件形式例如:demo.csv,一个很简单的csv文件 name,score alex,1 jon,2 sansa,3读写csv文件常用的有两种方式,一种是使用csv,一种是使用pandas1 使用pandas进行读写读pandas...

2018-06-21 17:31:14 60125 2

原创 sklearn学习:性别分辨模型2: 优化和评估

上一篇博客中,写到训练了一个分辨性别的模型。用自己分类的数据进行模型训练时,准确率达到90%以上。 但是用另一个训练数据集,准确率只有80%多一点。因此在优化和评估方面做了一些工作。1.优化1.清理数据把所有预测错误的数据全部找出来进行观察,发现有些数据并不是目标特征数据,这里使用的是商品的brand,但数据集中存在不是brand的信息,因此要进行剔除。等等类似的工作。2.优...

2018-06-06 16:53:49 975

转载 【Python】十进制转二进制

base = [str(x) for x in range(10)] + [ chr(x) for x in range(ord('A'),ord('A')+6)]def dec2bin(string_num): num = int(string_num) mid = [] while True: if num == 0: break ...

2018-06-06 16:27:59 13776

原创 sklearn学习:训练一个分辨性别的模型

最近在学习sklearn,动手实现了一个根据名称分辨性别的模型。 感觉还是蛮有趣的。 这个是参考的链接(英文),Working with Text Data仿照这个教程上的步骤一步步建立自己的模型。Version11.准备训练数据将csv中的record读入,使用pandas。为了在文本文档上执行机器学习,我们首先需要将文本内容转换为数字特征向量。 可以将名称分为单词袋(...

2018-06-06 14:27:13 1883

翻译 sklearn学习:roc_auc曲线和 metrics.roc_auc_score

1.概念ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候...

2018-06-06 11:33:57 31462

原创 sklearn学习:train_test_split

train_test_split 是sklearn中一个用来随机分割train,test数据集的工具sklearn.model_selection.train_test_split(*arrays, **options)[source]需要注意的参数包括,1. test_sizetest_size的参数类型可能有多种: 如果为float型,需要介于0.0到1.0之间,表示要分...

2018-06-04 14:43:08 1357

原创 【Python】Numpy:如何找到list中的np.nan值

这个问题源于在训练机器学习的一个模型时,使用训练数据时提示prepare的数据中存在np.nan报错信息如下L: ValueError: np.nan is an invalid document, expected byte or unicode string. 刚开始不知道为什么会有这个,后来发现是list中存在nan值下面是找到nan值的方法: 简单找到:import nu...

2018-06-04 11:12:15 35094

原创 【Python】string和bytes数据类型之间的转换

一个很简单的问题,但是曾经因为这个很闹心了一会,把简单的解决方案记录在这里,方便日后查看。string = 'adidas NMD_XR1 Shoes - Grey | adidas UK'print('type of string: ',type(string))# string to bytesnew = string.encode(encoding='unicode-escape'...

2018-06-04 10:47:38 1735

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除