2018年08月_chenXin@Euler

翻译 sklearn 逻辑回归中的参数的详解'newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'

penalty : str, ‘l1’ or ‘l2’, default: ‘l2’ 这个是l1 or l2正则化，一般选l2正则化对于逻辑回归分类算法 dual：选择默认的就好，针对的就是l2正则和libliner solver C : float, default: 1.0 正则强度逆或者叫做惩罚系数就是对误差的容忍度，值越高越不能容忍 fit_intercept : bool, d...

2018-08-27 17:20:52 13937

翻译 mac登陆远程服务器

Mac 用户可以使用本机的 terminal 软件来连接服务器。Windows 用户可以使用 cmd 或者 XShell 软件来连接服务器。 XShell 软件连接服务器最开始，查看七月在线官网的私信（官网登陆后，点击头像，进入消息中心，最后点击私信），你需要知道以下几个参数： username：格式为 chenxinjingjing_451855@101.132.121.198 pas...

2018-08-27 15:06:22 4618

原创 python在数据分析库里axis=0/axis=1的含义

在pyhton的图形中，以及在pandas中，经常会用到axis=0和axis=1 那么他们到底表示的是什么呢？下面通过一些代码来展示：import numpy as npa=np.array([[1,2,3],[4,5,6],[7,8,9]])a=a.sum(axis=0)print(a) code result:[12 15 18]...

2018-08-26 20:27:00 859 3

转载机器学习之NLP自然语言处理

本文将分八大步骤来介绍如何用机器学习处理文本数据。从最简单的方法开始，逐一讲解，然后分析更具体的方案细节，如特征工程、词向量和深度学习。你可以把本文看作是标准方法的高度概括。代码链接：https://github.com/hundredblocks/concrete_NLP_tutorial/blob/master/NLP_notebook.ipynb一、收集数据每一个机器学...

2018-08-25 21:59:27 9509

原创 python求最大值，不使用内置函数

利用python进行求解，求解的要求是不能使用python内部封装好的函数例如：max way1:def findmax(data,n): if n==1: return data[0] else: maxi=data[0] for i in data[1:]: if maxi<i: ...

2018-08-25 17:51:57 10887

原创 python继承和多态

继承和多态在OOP程序设计中，当我们定义一个class的时候，可以从某个现有的class继承，新的class称为子类（Subclass），而被继承的class称为基类、父类或超类（Base class、Super class）。比如，我们已经编写了一个名为Animal的class，有一个run()方法可以直接打印：class Animal(object): def run(...

2018-08-25 17:27:20 180

原创机器学习之情感分析

情感分析# -*- coding: utf-8 -*-from __future__ import unicode_literals# sent.pyimport nltk.corpus as ncimport nltk.classify as cfimport nltk.classify.util as cupdata = []fileids = nc.movie_review...

2018-08-25 15:17:24 1301

原创毕达哥拉斯（勾股定理）

毕达哥拉斯定理勾股定理毕达哥拉斯定理就是勾股定理，也叫做商高定理。勾三股四弦5⃣️ 勾股定理和欧式距离是比较像的，当欧式距离针对的是平面空间的时候，欧式距离就是勾股定理。...

2018-08-25 15:14:47 2515

原创广度优先算法

deque 即双端队列。是一种具有队列和栈的性质的数据结构。双端队列中的元素可以从两端弹出，其限定插入和删除操作在表的两端进行。# 最短路径问题的算法被称为广度优先搜索# 广度优先搜索是一种用于图的查找算法# 第一类问题：从节点A出发，有前往节点B的路径吗？# 第二类问题：从节点A出发，前往节点B的哪条路径最近。from collections import dequegraph={...

2018-08-25 13:40:46 425

原创 hash table在python中的实现

hash table：又称为散列表，有键和值组成，数组中方商品的价格。散列表总是将同样的输入映射到形同的索引散列函数将不同的输入映射到不同的索引散列函数知道数组有多大，只返回有效的索引。# 投票可以使用散列表voted={}def check_voter(name): if voted.get(name): print("kick them out")...

2018-08-25 11:30:53 2914 2

原创 python递归(阶乘和斐波那契数)

斐波那契数列亦称之为斐波那契数列（意大利语： Successione di Fibonacci)，又称黄金分割数列、费波那西数列、费波拿契数、费氏数列，指的是这样一个数列：1、1、2、3、5、8、13、21、……在数学上斐波那契数列指的是这样一个数列：1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, … 这个数列从第三项开始，每一项都等于前两项之和。通...

2018-08-25 10:47:12 1893

原创线性回归中给损失函数加的正则项L1和L2

正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1-norm和ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。 L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为||w||1 L2正则化是指权值向量w中各个元素的平方和然后再...

2018-08-22 21:51:13 3239

转载最短路径算法

A*算法实际是个穷举算法，也与课本上教的最短路径算法类似。课本上教的是两头往中间走，也是所有路径都走一次，每一个点标注最短值。A* (使用曼哈顿距离) 2. A* (采用欧氏距离) 3. A* (利用切比雪夫距离) 4. Dijkstra 5. Bi-Directional Breadth-First-Search(双向广度优先搜索) 在最短路径搜...

2018-08-22 17:09:34 289

翻译排序算法，对内存小数据量大的数据排序(一)

问题描述百度面试题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。外部排序指的是大文件的排序...

2018-08-22 16:59:04 10846 1

原创 python3 汉明重量输入一个数找二进制中位数是1的个数 leetcode

编写一个函数，输入是一个无符号整数，返回其二进制表达式中数字位数为 ‘1’ 的个数（也被称为汉明重量）。示例 : 输入: 11 输出: 3 解释: 整数 11 的二进制表示为 00000000000000000000000000001011示例 2:输入: 128 输出: 1 解释: 整数 128 的二进制表示为 0000000000000000000000001000000...

2018-08-22 13:41:14 788 1

原创 python3 leetcode判断一个数是不是2的幂次方

当拿到这道题的时候我想的是进行 code:import mathn=int(input('请输入一个正整数：'))if math.log(n,2)==int: return Trueelse: return False但是在leetcode这样运行时错误的，所以代码修改如下：class Solution: def isPowerOfTwo(sel...

2018-08-22 12:02:54 1990

转载 python3 atoi leetcode

实现 atoi，将字符串转为整数。在找到第一个非空字符之前，需要移除掉字符串中的空格字符。如果第一个非空字符是正号或负号，选取该符号，并将其与后面尽可能多的连续的数字组合起来，这部分字符即为整数的值。如果第一个非空字符是数字，则直接将其与之后连续的数字字符组合起来，形成整数。字符串可以在形成整数的字符后面包括多余的字符，这些字符可以被忽略，它们对于函数没有影响。当字符串中的第一个非空字...

2018-08-22 11:20:25 378

原创 python3 reverse_integer leetcode

leetcode:https://leetcode-cn.com/problems/reverse-integer/description/ 这是第7道算法题。，有兴趣的同学可以去这里刷题。class Solution: # @param {int} n the integer to be reversed # @return {int} the reversed integ...

2018-08-22 10:23:53 171

转载自然语言处理常用到的包

斯坦福的corenlp,可以用来entities的提取。 http://nlp.stanford.edu/software/corenlp.shtml关于情感分析情感分析的词库，sentiment Word wordnet 是近义词词典 sentiwordnet 基于wordnet的，现在已经 3.0了 http://sentiwordnet.isti.cnr.it/ ...

2018-08-21 17:21:59 1719

原创机器学习F1_score(1)分类模型检验

交叉验证来获得模型的准确性，算法 1)查准率和召回率查准率反应的是对不对，找到的对不对的比率召回率反应的是全不全，找到的全不全的比率正确性和完整性分别对应查准率和召回率 ,,,,,,,,,,,,,,,被正确识别为某类别的样本数查准率=——————————————- ,,,,,,,,,,,,,,,被识别为该类别的样本数正确性：对不对 ,,,,,,,,,,,,,,被正确识别...

2018-08-21 16:14:33 3235

原创机器学习之聚类

衡量聚类距离的方式有很多，常用的方式有欧式距离和曼哈顿距离两种。对于两个n维数据Xi,Xj，以下是两种距离的计算公式，上图中的k代表的是维度数，最高是n维，而不是幂次数图片裁剪的像素尺度不好，导致图片只能倒放，造成的不便还请多多包涵！原型聚类:K-means 聚类算法有很多种，常用的聚方法包括原型聚类，密度聚类，层次聚类几种。原型聚类是指聚类结构能通过一组原型刻画的聚类，原...

2018-08-21 10:36:46 476

翻译机器学习集成模型

下面示例的是boosting集成，bagging集成，stacking集成详细的信息，明天早晨起床再添加吧！困了先睡了

2018-08-20 23:29:49 3424

原创特征选择算法(机器学习)

1）特征选择理论一份数据有很多属性，但有些属性可能很关键，另一些没有用。从给定特征集中选择出相关特征子集的过程称为特征选择。特征选择是一个重要的数据预处理过程。一般在正式的数据处理之前进行。特征选择是一个重要的数据预处理过程，他不仅可以降低数据维数，以节省时间，简化分析，规避“维度灾难”，更可以去除无关特征，抓住主要矛盾，使分析结果更加准确。同时，采用特征选择算法还便于理解和可视化数据，降...

2018-08-20 23:04:25 4766

原创机器学习降维技术(unsupervision/supervision)

线性将维技术本质是把数据投影到低维线性子空间，通过特征的线性组合来降维，其代表方法有主成分分析(PCA)，线性判别技术(LDA)等。原始观察空间中的样本具有极大的信息冗余，样本的高维数引发分类器设计的“维度灾难”。将维可以在一定程度上解决这个问题，比如说样本数400，但是特征属性有40000个，这就是一个维度灾难的实际现象。缓解维度灾难的一个重要途径是降维，即将高纬度空间的数据缩放到低纬度空...

2018-08-20 18:26:59 591

原创 python进程池apply与apply_async

进程池Pool中的apply方法与apply_async的区别apply方法是阻塞的。意思就是等待当前子进程执行完毕后，在执行下一个进程。示例apply的应用方法import timefrom multiprocessing import Pooldef run(msg): print('msg:%s'%msg) # 程序随眠3秒, time.sleep...

2018-08-19 14:39:41 1304

原创特征抽取(萃取extra)和特征选择

总述特征选择和特征抽取其实这些都是将维的范畴。特征选择是指选择全部特征的一个子集作为特征向量：特征抽取是指通过已有特征的组合建立一个新的特征子集，主成份分析方法(principa1component analysis, PCA)就是通过原特征的线性组合建立新的特征子集的一种特征抽取方法。特征抽取：是指通过已有特征的组合（变换）建立一个新的特征子集。在众多的组合方法当中，线性组合（变换）...

2018-08-19 09:54:22 1452

原创随机森林(randomForest)和极限树或者叫做极端随机树(extraTree)，

随机森林：是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。，随机森林对回归的结果在内部是取得平均但是并不是所有的回归都是取的平均，有些是取的和，以后会发博文来解释这样的一个现象，需要整理些资料出来。随机森林里的随机包含的意思是：样本随机特征随机参数随机模型随机（ID3 ,C4.5）极限树/极端随机树里的随机包含的意思是：特征随机参...

2018-08-18 22:39:28 39307 1

原创 python数据结构（容器）

对于数据结构这样的一个词，我相信有过c语言基础的人都应该不陌生，数据结构：(data structure)是相互之间存在一种或多种特定关系的数据元素的集合。根据数据元素之间关系的不同特征，通常有下列4类基本结构： 1）集合结构中的数据元素之间除了“同属于一个集合”的关系外，别无其他关系。 2）线性结构（数组，队列，栈）结构中的数据元素之间存在一个对一个的关系 3）树形结构（...

2018-08-18 19:45:05 889

原创 python中实现两个变量值的变换，在不引入第三方变量的条件下

其实两个值的变换的方式，就像是两个手里分别拿着鸡蛋和鸭蛋一样，（一个手只能在同一时间点哪一个蛋在手中），那么该怎么转换，在不引入其他凭借的条件下，你应该怎么做？是一样的原理的，a=100b=200a=a^b# 把100和200转换为二进制，按位异或b = a ^ ba = a ^ b# 上一步a的变换其实就是：a = a ^ b ^ aprint(a)# 上一步b的变换其实...

2018-08-18 18:03:38 446

原创天池比赛notebook

天池比赛的链接文档说明 https://tianchi.aliyun.com/notebook/index.htm?spm=5176.9876270.5610778.14.31d1e44axRaA3f 其实这个notebook是和jupiter notebook是一样的一个东西，我也是最近对天池比赛有一点点的兴趣。希望大家可以好好学习。一起加油，只要我的博客有更新，那就说明我就一直在学习。如果...

2018-08-17 21:55:31 3364

原创二叉树（满树），树深度和叶子节点的计算

判断树深和叶子节点的个数，对于完全二叉树，有关二叉树的名词树的结点（node）：包含一个数据元素及若干指向子树的分支；孩子结点（child node）：结点的子树的根称为该结点的孩子；双亲结点：B 结点是A 结点的孩子，则A结点是B 结点的双亲；兄弟结点：同一双亲的孩子结点；堂兄结点：同一层上结点；祖先结点: 从根到该结点的所经分支上的所有结点子孙结点：以某结点为根的...

2018-08-17 14:01:56 14082

原创概率统计(probability statistics)

下面是概率的常见参数和分布函数 https://www.cnblogs.com/SevnChen/p/5320949.html 在我看来概率是一个通过模型找规律已知分布求概率已知总体服从xxx分布，推断当条件概率，推断贝叶斯概率，转化到具体事务上大数定理，中心极限定理统计是给你规律，找模型的一个过程已知对应的概率，推断服从什么分布假设检验统计量点估计区间估计 ...

2018-08-17 10:53:57 657

转载 Laplace（拉普拉斯）先验与L1正则化

在之前的一篇博客中L1正则化及其推导推导证明了L1正则化是如何使参数稀疏化人，并且提到过L1正则化如果从贝叶斯的观点看来是Laplace先验，事实上如果从贝叶斯的观点，所有的正则化都是来自于对参数分布的先验。现在来看一下为什么Laplace先验会导出L1正则化，也顺便证明Gauss（高斯）先验会导出L2正则化。最大似然估计很多人对最大似然估计不明白，用最简单的线性回归的例子来说：如果有数据...

2018-08-17 10:25:25 2837

原创 python代码查找列表中重复的元素出现次数

这个问题需要用到字典# 输入数字几，就找到出现几次的元素ids=[1,2,3,3,4,2,3,4,5,6,1,5]di={}for i in ids: if i not in di.keys(): di[i]=1 else: di[i]+=1values=list(di.values())keys=list(di.keys())pri...

2018-08-16 20:08:38 4884

原创过拟合和欠拟合以及相对应的解决办法

欠拟合：是指模型的学习能力比较低，以至于，只学到了很少的一部分信息，当进行预测的时候，会发生方差最低，和偏差较大的情况过拟合：是指模型的学习能力比较强，以至于，直接把题给背下来了，如果考到原题，就会实现相应的预测100%，如果预测的不再训练集中，那么结果就是0. 过拟合是偏差较小，但是方差较大上面的较小与较大是和不欠拟合也不过拟合的相比而言的，这也在某种程度上说明了，偏差和方差是一个均...

2018-08-16 15:29:58 664

原创列表去重

列表去重方法1:循环ids = [1,2,3,3,4,2,3,4,5,6,1]news_ids = []for id in ids: if id not in news_ids: news_ids.append(id)print(news_ids)列别去重方法2：集合ids=[1,2,3,3,4,2,3,4,5,6,1]ids=list(set(ids)...

2018-08-16 14:30:20 499

转载觉得比较有用的几道机器学习面试题，很基础的

来自tinymind，这个你们也可以去注册一个，关注一下这个人工智能社区不客气原文网址，可以在这里进行注册的 https://www.tinymind.cn/articles/109 1、你会在时间序列数据集上使用什么交叉验证技术？是用k倍或LOOCV？　都不是。对于时间序列问题，k倍可能会很麻烦，因为第4年或第5年的一些模式有可能跟第3年的不同，而对数据集的重复采样会将分离这些趋...

2018-08-15 19:57:15 161

转载梯度下降法详解

我是转载，这个人真的很牛，但是我还是没有想明白，为何凸函数作为损失函数，梯度下降法一定会收敛到全局最优点，如果有解答过或明白的，请告知谢谢 https://www.cnblogs.com/pinard/p/5970503.html...

2018-08-15 18:11:20 500

转载机器学习中的损失函数（凸函数辨别）

(转)机器学习中的损失函数损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子： θ∗=argminθ1N∑i=1NL(yi,f(...

2018-08-15 18:00:08 14500 2

原创 AUC和ROC

AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。这句话有些绕，我尝试解释一下：首先AUC值是一个概率值，当你随机挑选一个正样...

2018-08-13 15:26:35 474

空空如也

空空如也