自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 Matplotlib 图的标注--annotate

图形标注有时候我们画好了一幅图,比如柱状图,但是如何在每个柱子上面显示其具体的数据呢?简单的plot.bar()是无法解决这个问题的。今天就遇到了这个问题,发现annotate是一个提供标注的工具,可以解决此类问题。annotate的功能很强大,在图中加文本框,加箭头都可以。实例最近在做Titanic 数据分析,分类型变量的单变量分析一般需要画柱状图,在图上加上具体的数值再好不过了。...

2018-10-30 21:15:41 3830

转载 转-【特征工程汇总】--"使用sklearn做单机特征工程"

看到关于特征工程的,最为详细的介绍。https://www.cnblogs.com/jasonfreak/p/5448385.html

2018-10-25 21:29:35 158

原创 【sklearn实例】5--数据标准化/归一化

1 标准化&归一化Standardization:z-score标准化将数据均值转化为0,标准差转化为1。处理后的数据符合标准正态分布。Normalization: min-max归一化(0 ~ 1)利用最大最小值,将数据进行线性转化,范围落在(0 ~ 1)。归一化到任意区间(a ~ b)(1)首先找到原样本数据集的最小值Min及最大值Max...

2018-10-24 17:08:52 4102 1

原创 Python练习转移LeetCode

最近发现自己在网上找的题目太杂乱,难度不一、类型不一。其实应该按照一定的顺序,从简单到难,从数组到链表等。见识了一下早有耳闻的LeetCode,中文网站非常棒,题库类型多样,难度可选,分类详细,所以今后做python练习就在那了,不来这刷积分了 ̄□ ̄||。所以,最后一道题,贴上来刚刚做的LeetCode小题。可以在线编辑、执行、提交,非常舒服便捷。还有排名和提交记录,相当于在线小pk,做起来也很有...

2018-10-23 21:26:45 169

原创 【sklearn实例】4--特征工程之离散值编码

离散特征离散特征变量类型可以分为有序类和无序类。无序类,价值相等且可区分,没有等级、顺序、排序、好坏等逻辑关系,各变量相互独立:性别(男/女)、颜色(赤橙黄绿青蓝紫)、登机口(A/B/C);有序类:各变量有级别大小等逻辑关系:尺码(L/XL/XXL)、学历(高/中/低)为何要编码对无序类:为何不能直接对特征进行赋值,比如male1,female0。这是不科学的,因为这样一来就存...

2018-10-22 20:32:29 3438

原创 重温Titanic

 周五晚上例行组会,今天没有做python练习。下午又重温了一遍Titanic,可能是第三遍了吧,体会还是不一样。这两个镜头最感人。目睹着自己所爱的人沉入深海,怀着永不放弃的誓言奔向新生活。看到骑马的这张照片才想到Jack曾要教她像男人一样骑马,更感受到Rose不仅活出了自己想要的自由,也在为Jack而活。再看一遍的原因,是因为对数据挖掘感兴趣,就是从一篇Titanic的博客开...

2018-10-19 22:02:11 153

原创 Python 练习(22)-易

问题描述我国古代数学家张丘建在《张丘建算经》一书中提出了“百鸡问题”:鸡翁一,值钱五,鸡母一,值钱三,鸡雏三,值钱一。百钱买百鸡,问鸡翁、鸡母、鸡雏各几何?这个问题的大致意思是这样的:公鸡5文钱一只,母鸡3文钱一只,小鸡3只一文钱。如果用100文钱买100只鸡,那么公鸡、母鸡和小鸡各应该买多少只呢?分析:三个未知数,两个方程。找到其中两个未知数的等量关系,遍历一个未知数,找到符合条件的组...

2018-10-18 21:02:58 1483

原创 《机器学习》笔记--5 特征选择

2018-10-18 19:23:41 307

原创 《机器学习》笔记--4 集成学习boosting and bagging

Boosting特点:个体学习器之间存在强依赖关系、必须串行生成的方法。关注偏差的降低。方法: 先从初始训练集选练出一个弱学习器,再根据弱学习器的表现进行样本分布的调整,提高那些被错误学习的样本的权值,降低那些被正确学习的样本的权值,然后继续训练下一个弱学习器。最后将一定数量的弱学习器进行组合,通过平均法或投票法,得到输出结果。AdaBoost: 加性模型,及若干个弱学习器的线性组合...

2018-10-18 11:10:09 228

原创 Python练习(21)-分糖果-中

问题描述:10个小孩围城一圈分糖果,老师分给第1个小孩10块,第2个小孩2块,第3个小孩8块,第4个小孩22块,第5个小孩16块,第6个小孩4块,第7个小孩10块,第8个小孩6块,第9个小孩14块,第10个小孩20块。然后所有的小孩同时将手中的糖分一半给右边的小孩;糖块数为奇数的人可向老师要一块。问经过这样几次后大家手中的糖的块数一样多? 每人各有多少块糖?分析:首先,糖的传递a[i]=...

2018-10-17 22:20:38 2676 2

原创 【sklearn实例】3--线性回归

线性回归思想通过学习,找到属性的线性组合来预测输出标记。损失函数一般采用均方误差作为损失函数:优化方法梯度下降法(不满秩情况使用,收敛较慢,有可能求得局部最小值)正规方程求解-最小二乘法(需要X是满秩的,即样本数大于特征数)形式一般线性回归岭回归(Ridge):防止过拟合,损失函数加入正则化项,L2范数lasso:加入正则化项,L1范数ElasticNet:...

2018-10-17 20:19:58 996

原创 Python 练习(20)-易

问题描述有一个卡车司机肇事后想逃跑,但是被三个人看见了其车牌号,但是都没看全,甲说:车牌的前两位是一样的;乙说:车牌的后两位一样的,但与前两位不一样;丙说:车牌是一个数字的平方。请编写一个程序计算该车牌号是多少(车牌号4位数)。代码import mathfor i in range(1,10): for j in range(1,10): if j!=i: ...

2018-10-16 20:25:23 408

原创 Python 练习(19)-易

问题描述在编程竞赛中,有10个评委为参赛的选手打分,分数为0 ~ 100分。选手最后得分为:去掉一个最高分和一个最低分后其余8个分数的平均值。请编写一个程序实现。代码import random#生成随机列表score = [random.randint(1,100) for x in range(10)]print score#移除最大值和最小值 list.remove()sco...

2018-10-15 20:15:40 378

原创 Python练习(18)杨辉三角-难

根据输入行数,打印出杨辉三角,如图所示。11 11 2 11 3 3 11 4 6 4 11 5 10 10 5 11 6 15 20 15 6 1分析开始想用二维数组表示,但是这是一个下三角矩阵,上三角是空的,但是二维数组无法输出空,不满足。想着用一个列表...

2018-10-14 20:35:40 576

原创 Python练习(17)-九九乘法表-易

for i in range(1,10): for j in range(1,i+1): print '%s*%s=%s'%(i,j,i*j), print ''加逗号,实现连续输出在一行print() 默认换行

2018-10-13 19:12:41 340

原创 【sklearn实例】2--支持向量机SVM

1 支持向量机思想:建立可以分类的超平面,距离超平面最近的点称为支持向量,通过最大化支持向量到超平面的距离,来建立最佳分类超平面,完成分类。SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。一般SVM有下面三种:形式:线性可分支持向量机(硬间隔):当训练数据线性可分时,可通过硬间隔最大化学得一个线性可分支持向量机。线性支持向量机(...

2018-10-13 15:04:06 1330

原创 随想-山峰背后的世界

十一假期没有出去浪,去年的十一海哥来了,今年的十一海哥联系我了,互相聊了聊近况。每天加班,晚上忙起来十一点睡是经常现象,听起来好像程序员,谁知道他竟然是个公务员,可能是假公务员o(╥﹏╥)o昨天和师兄说了一下规划,听说我想搞大数据,师兄也很平静,只是说程序员很苦的要做好心理准备。其实我觉得倒不然,无论哪个行业,想要做好的话,哪有不辛苦的。况且你的工作量至少要对得起你拿的薪水。我不怕辛苦,怕的是干...

2018-10-13 08:35:58 229

原创 《数据结构》-python实现-数据的插入与删除

数据插入#数据插入:在list中的第i个位置插入元素edef Insert(list, i, e): if i>len(list)-1: return False list.append([]) for k in range(len(list)-1,i-1,-1): #注意顺序,应该从大到小,依次-1 list[k]=list[...

2018-10-11 22:34:18 978

原创 Python练习(16)--回形矩阵-难-没做出来

问题描述打印回型矩阵如图:1 2 3 4 5 6 7 828 29 30 31 32 33 34 927 48 49 50 51 52 35 1026 47 60 61 62 53 36 1125 46 59 64 63 54 37 1224 45 58 57 56 55 38 1323 44 43 42 41 40 39 1422 21 20 19 18 17 16 15分...

2018-10-11 21:11:04 1523

原创 【Python-数据读取】读取txt文件每一行数据生成列表

好多时候我们要读取txt文件获得数据,并把数据的按行或者按列存放到列表中,从而生成特征和类别标签。今天读了好几个都没有成功,最后发现,数据间的分隔符十分重要,总结一下经验。数据间的分隔符是空格读取的代码如下所示:file=open('ll.txt') dataMat=[] labelMat=[]for line in file.readlines(): cur...

2018-10-10 22:23:57 125878 7

原创 Python练习(15)-中

问题描述等差素数数列类似7、37、67、97、107、137、167、197,这样由素数组成的数列叫做等差素数数列。素数数列具有项数的限制,一般指素数数列的项数有多少个连续项,最多可以存在多少个连续项。编程找出100以内的等差素数数列。分析:先构造素数判断函数,并找出100以内所有素数;遍历所有素数ai,再内循环找到接线来的素数aj,判断ak=2aj-ai 是否是素数若是,则再判断...

2018-10-10 20:26:05 190

原创 Python练习(14)-哥德巴赫猜想-中

问题描述众所周知,哥德巴赫猜想的证明是一个世界性的数学难题,至今未能完全解决。我国著名数学家陈景润为哥德巴赫猜想的证明作出过杰出的贡献。 所谓哥德巴赫猜想是说任何一个大于2的偶数都能表示成为两个素数之和。编写程序,验证指定范围内哥德巴赫猜想的正确性,也就是近似证明哥德巴赫猜想。分析:构造素数判断函数;在范围内50 遍历,找到偶数n;(奇数也要执行一次,算法复杂度较大,改用 i+=2 来...

2018-10-09 20:34:20 7175

原创 【sklearn实例】1-贝叶斯算法

问题朴素贝叶斯求解朴素贝叶斯公式:求解思想:即求先验概率与条件概率乘积的最大值求解注意:本人求解过程中忘记了 Laplace 平滑 (⊙︿⊙),但好在预测值里面没有学历为博士的一项,所以不平滑也不影响预测,但这样是不规范的。代码分析1 读取数据2 数据切片,转换(将字符型数据编码)3 划分训练集和测试集4 导入 sklearn 贝叶斯方法,拟合5 预...

2018-10-09 19:45:00 2694 1

原创 Pandas读取文件(read_csv与read_table 的区别)

pandas加载文件方式:注意,read_csv和read_table都是是加载带分隔符的数据,每一个分隔符作为一个数据的标志,但二者读出来的数据格式还是不一样的,read_table是以制表符 \t 作为数据的标志,也就是以行为单位进行存储。read_csv 与 read_table 的区别比如读取以上excel中的数据:read_table读取import pandas...

2018-10-09 10:50:33 12130

原创 Python练习(13)易

问题描述法国数学家梅森尼对这类形如2 ^ n-1的素数特别感兴趣,做过很多有意义的工作,后人把此类数命名为梅森尼数。 已经证明了,如果2 ^ n-1是素数,则幂指数n必须是素数,然而,反过来并不对,当n是素数时,2 ^ n-1不一定是素数。例如,人们已经找出2 ^ 11-1是一个合数,23可以除尽它,2 ^ 23-1是一个合数,47可以除尽它。找出指数n在(2,50)中的梅森尼数。分析首...

2018-10-08 20:02:33 290

原创 Python练习(12) -易

问题描述素数的平方是回文,即正读和反读相同。比如11 * 11=121,求不超过1000的平方回文素数。分析构造素数判断函数;构造判断回文的函数;遍历1000以内的数,找到素数;判断该数的平方是否满足回文,且不超过1000;代码# 素数判断函数def huiwen(i): if int(str(i)[::-1])==i: return True# ...

2018-10-07 19:39:18 147

原创 《机器学习》笔记---2 模型的损失函数与正则化

损失函数度量模型一次预测的好坏 L( Y,f(X) )常见类型:期望风险(风险函数)度量平均意义下的模型预测的好坏,即损失函数的期望。(关于 联行分布的期望,未知,无法直接计算)经验风险模型关于训练数据集的平均损失,当样本容量N–>∞,经验风险趋于期望风险。经验风险最小化,保证模型有很好的学习效果。结构风险(正则化)为防止过拟合而提出,在经验风险的基...

2018-10-07 10:54:54 502

原创 Python练习(11)

问题描述:所谓回文素数是指,对一个整数n从左向右和从右向左读结果值相同且是素数,即称为回文素数。求不超过1000的回文素数。分析:构造判断素数的函数;先筛选素数,再求出逆数,若相等则输出代码#素数判断函数import mathdef sushu(n): for k in range(2,int(math.sqrt(n)+1)): ...

2018-10-06 19:49:03 514

原创 Python练习(10)

问题描述:编写程序找出1 ~ 900之间的所有可逆素数(可逆素数是指一个素数的各位数值顺序颠倒后得到的数仍为素数,如113、311)。步骤首先构造一个判断素数的函数;for 循环取1~900 内的数字,判断是否是素数;再把其顺序颠倒的数算出来 reduce(lambda)判断其是否是素数;若符合要求,则输出 iimport math # 需要用到平凡根,要导入mathdef ...

2018-10-05 21:12:47 511

原创 《机器学习》笔记——1 模型的评估方法

测试集与训练集我们无法直接获得泛化误差,而训练误差又由于过拟合现象的存在而不适合作为评估标准。通常需要一个测试集来测试模型对新样本的学习能力,用测试集的测试误差作为泛化误差的近似。所以,一个包含 m 个样例的数据集D,需要进过处理,从中产生出训练集 S 和测试集 T,来进行模型的学习和测试。评估方法1 留出法直接将数据集D划分为两个互斥的集合,一个做训练集 S,一个作为测试集 T。...

2018-10-05 20:14:35 314

原创 回归中的缩减法

作用通过引入惩罚项,能够减少不重要的参数。通过比较经过不同程度缩减得到的系数,我们可以看出特征的重要程度(系数越大,对结果影响越大),从而更好地理解数据,有助于模型的改进。方法岭回归:线性回归时,如果特征比样本点还多(n>m),此时输入矩阵X将不是满秩矩阵,则无法求逆,最小二乘法(Ordinary Least Squares)将无法求解:此时引入一个单位矩阵 λI ,从而使矩阵非...

2018-10-05 10:37:12 1461

原创 数据 归一化(标准化)

作用当样本的各个特征的数量级相差较大,那么不同特征对模型的影响也会有较大的差别。为了使每个特征都具有相同的重要性,通过归一化(标准化),来把所有特征的范围化为同一量级。常见方法Standardization利用均值与标准差来计算,最终取值范围是[-1 , 1]Min-Max Scaling利用最小值和最大值来计算,取值范围是[0 , 1]应用KNN中、岭回归...

2018-10-05 09:11:25 267

原创 Python练习(9)

问题描述金蝉素数:某古寺的一块石碑上依稀刻有一些神秘的自然数。 专家研究发现:这些数是由1,3,5,7,9这5个奇数字排列组成的5位素数,同时去掉它的最高位与最低位数字后的3位数还是素数,同时去掉它的高二位与低二位数字后的一位数还是素数。因此人们把这些神秘的素数称为金蝉素数,喻意金蝉脱壳之后仍为美丽的金蝉。试求出石碑上的金蝉素数问题分析首先构造一个判断素数的函数,之前做过如何生成只含...

2018-10-04 20:33:20 1062

原创 《机器学习》笔记---3 Kernel Function(核函数)

Kernel Function定义通过映射,可以把低维空间的数据映射到高维空间,映射函数φ(x)表示这个映射关系。核函数和映射没有关系,核函数只是用来计算映射到高维空间之后的内积的一种简便方法。作用通过一个映射函数φ(x),将低维线性不可分问题,转化为高维线性可分(如SVM)。不通过映射关系来计算高维空间中的距离或角度,而是通过核函数来直接计算。优势:计算量小,明显低于映射到高维空间中...

2018-10-04 17:41:06 458

原创 Python练习(8)

问题描述孪生素数:若两个素数之差为2,则这两个素数就是孪生素数。编写程序找出1 ~ 100之间的所有孪生素数。代码def sushu(n): #构造一个判断素数的函数 a=0 for i in range(2,n): if n%i==0: a+=1 if a==0: retu...

2018-10-03 19:37:47 808 1

原创 Python练习(7)

问题描述素数(质数)指的是不能被分解的数,除了1和它本身之外就没有其他数能够整除。求100以内的所有素数。代码def sushu(n): a=0 # 定义一个a,目的是看能被几个数整除 for i in range(2,n): if n%i==0: a+=1 #每被整除一次...

2018-10-02 21:25:56 171

原创 Python练习(6)

问题描述反序数,即有这样成对的数,其特点是其中一个数的数字排列顺序完全颠倒过来,就变成另一个数,如102和201,36和63等,简单的理解就是顺序相反的两个数,我们把这种成对的数互称为反序数。反序数唯一不可能出现以0结尾的数。一个3位数各位上的数字都不相同,它和它的反序数的乘积是280021,这个3位数应是多少?代码def revernum(n): ...

2018-10-01 20:39:17 239

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除