- 博客(38)
- 资源 (42)
- 收藏
- 关注
转载 python-对象之hashable&unhashable与immutable&mutable
首先,hashable和unhashable先来看一下官方文档上面对hashable的解释: hashable An object is hashable if it has a hash value which never changes during its lifetime (it needs a __hash__()method), and can be compared to other...
2018-03-30 17:00:02 231
转载 Python可迭代对象中的添加和删除(add,append,pop,remove,insert)
学习python的list,tuple,dict,set的时候被插入和删除的用法弄得有点晕,所以进行归纳,以便记忆对于List:[python] view plain copyclassmates = ['Michael', 'Bob', 'Tracy'] classmates.append('Adam') //添加在末尾,没有add()方法 classmates.insert(1, ...
2018-03-30 13:29:35 1755 1
转载 Python之List中remove,pop,del区别分析
Python之List中remove,pop,del区别分析代码块remove#remove删除首个符合条件的元素,并不删除特定的索引。**n =[1,2,2,3,4,5]n.remove(3)print (n)**#输出 [1, 2, 2, 4, 5]123456pop#pop按照索引删除字符,返回值可以付给其他的变量,返回的是你弹出的那个数值。n =[1,2,2,3,4,5]a...
2018-03-30 13:28:05 402
转载 python 列表排序方法sort、sorted技巧篇
Python list内置sort()方法用来排序,也可以用python内置的全局sorted()方法来对可迭代的序列排序生成新的序列。1)排序基础简单的升序排序是非常容易的。只需要调用sorted()方法。它返回一个新的list,新的list的元素基于小于运算符(__lt__)来排序。>>> sorted([5, 2, 3, 1, 4])[1, 2, 3, 4, 5]你也可以...
2018-03-29 13:34:37 62802
转载 Python遍历列表的四种方法
方式一:app_list = [1234, 5677, 8899]<!-- lang: python -->for app_id in app_list:<!-- lang: python --> print app_id输出: 1234 5677 8899方式二:app_list = [1234, 5677, 8899]<!-- lang: p...
2018-03-28 11:03:37 949
转载 Python程序员最常犯的十个错误
Python程序员最常犯的十个错误不管是在学习还是工作过程中,人都会犯错。虽然Python的语法简单、灵活,但也一样存在一些不小的坑,一不小心,初学者和资深Python程序员都有可能会栽跟头。本文是Toptal网站的程序员梳理的10大常见错误,非常有参考意义。大家在开发过程中需要格外注意。译文中如有理解错误的地方,可以在网站留言或通过微信公众号编程派回复。常见错误1:错误地将表达式作为函数的默认参...
2018-03-28 10:57:40 219
转载 python中format函数
python中format函数用于字符串的格式化通过关键字1 print('{名字}今天{动作}'.format(名字='陈某某',动作='拍视频'))#通过关键字2 grade = {'name' : '陈某某', 'fenshu': '59'}3 print('{name}电工考了{fenshu}'.format(**grade))#通过关键字,可用字典当关键字传入值时,在字典前加**即可...
2018-03-28 10:20:37 2550
转载 python的位置参数、默认参数、关键字参数、可变参数区别
python的位置参数、默认参数、关键字参数、可变参数区别一、位置参数调用函数时根据函数定义的参数位置来传递参数。#!/usr/bin/env python# coding=utf-8def print_hello(name, sex): sex_dict = {1: u'先生', 2: u'女士'} print 'hello %s %s, welcome to python...
2018-03-28 10:19:50 1957
转载 Python中函数的参数传递与可变长参数
Python中函数的参数传递与可变长参数1.Python中也有像C++一样的默认缺省函数1 def foo(text,num=0):2 print text,num3 4 foo("asd") #asd 05 foo("def",100) #def 100定义有默认参数的函数时,这些默认值参数位置必须都在非默认值参数后面。调用时提供默认值参数值时,使用提供的值,否则使用默认值。...
2018-03-28 09:44:54 198
转载 Python一些特殊用法(map、reduce、filter、lambda、列表推导式等)
Map函数:原型:map(function, sequence),作用是将一个列表映射到另一个列表,使用方法:def f(x): return x**2l = range(1,10)map(f,l)Out[3]: [1, 4, 9, 16, 25, 36, 49, 64, 81]Reduce函数原型:reduce(function, sequence, startValue),作用是将一个列...
2018-03-27 18:10:47 297
转载 sklearn preprocessing 数据预处理(OneHotEncoder)
1. one hot encodersklearn.preprocessing.OneHotEncoderone hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:>>> from sklearn.preprocessing import OneHotEncoder>>> enc = OneHo...
2018-03-26 10:31:53 807
转载 最大熵模型 Maximum Entropy Model
熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 Information Theory 。今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵...
2018-03-23 15:05:53 738
原创 精通Python自然语言处理
import nltktext=" Welcome readers. I hope you find it interesting. Please do reply."from nltk.tokenize import sent_tokenizeprint(sent_tokenize(text))import nltktokenizer=nltk.data.load('tokenizers/pun...
2018-03-23 13:48:55 1424
转载 Parsing, CFG and PCFG
语法解析问题语法解析问题是比词性标注更高层的问题, 它以一个完整的句子做为输入, 以一棵对应的语法解析树作为输出。语法解析树中不仅反应了各个单词的词性, 也反应出了各个词之间的关系,比如短语(动词短语,名词短语等)甚至句子中的主谓关系等。举个课程中的例子:语法解析通常都会被表达成监督学习问题,而训练数据集可以是WSJ Treebank(for English);语法树可以传达的信息:1. POS;...
2018-03-22 09:56:49 2915
转载 python——双重列表推导式+函数,优雅而强大
看书的过程中,看到了这种精妙(书里译文如此)的用法。使用场景如下:列表ls:[python] view plain copyls = [('x',['open1','open1','open1']),('y',['open1','open1','open0']),('z',['open0','open0','open1'])] 我们定义了一个列表,里面的元素是元祖,元祖里还有列表。假设x,y,z...
2018-03-21 15:38:28 1259
转载 随机采样和随机模拟:吉布斯采样Gibbs Sampling
为什么要用吉布斯采样什么是sampling? sampling就是以一定的概率分布,看发生什么事件。举一个例子。甲只能E:吃饭、学习、打球,时间T:上午、下午、晚上,天气W:晴朗、刮风、下雨。现在要一个sample,这个sample可以是:打球+下午+晴朗。吉布斯采样的通俗解释?问题是我们不知道p(E,T,W),或者说,不知道三件事的联合分布joint distribution。当然,如果知道的话...
2018-03-21 09:33:05 998
转载 Needleman-Wunsch 算法和Smith-Waterman算法
全局和局部序列比对: 全局序列比对 尝试找到两个完整的序列 S1 和 S2 之间的最佳比对。如S1=GCCCTAGCG S2=GCGCAATG 如果设定每个匹配字符为1分,每个空格为-2分,每个不匹配为-1分,则下面的比对就是全局最优比对:S1'=GCCCTAGCG S2'=GCGC_AATG,连字符“_”代表空格。在 S2' 中有五个匹配字符,一个空格(或者反过来说,在 S1' 中有...
2018-03-19 18:38:54 6186
转载 基于JACCARD推荐(0,1推荐)
1、什么是jaccard? 杰卡德相似系数(Jaccard similarity coefficient),也称杰卡德指数(Jaccard Index),是用来衡量两个集合相似度的一种指标。Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数。 在我们项目中对于新闻的推荐,每个用户对新闻的浏览可以看做是一个集合。这样就可以使用jacca...
2018-03-19 16:52:52 954
转载 编辑距离算法详解:Levenshtein Distance算法
算法基本原理:假设我们可以使用d[ i , j ]个步骤(可以使用一个二维数组保存这个值),表示将串s[ 1…i ] 转换为 串t [ 1…j ]所需要的最少步骤个数,那么,在最基本的情况下,即在i等于0时,也就是说串s为空,那么对应的d[0,j] 就是 增加j个字符,使得s转化为t,在j等于0时,也就是说串t为空,那么对应的d[i,0] 就是 减少 i个字符,使得s转化为t。 然后我们考虑一...
2018-03-19 16:45:26 4013
转载 字符串编辑距离(Levenshtein距离)算法
基本介绍 Levenshtein距离是一种计算两个字符串间的差异程度的字符串度量(string metric)。我们可以认为Levenshtein距离就是从一个字符串修改到另一个字符串时,其中编辑单个字符(比如修改、插入、删除)所需要的最少次数。俄罗斯科学家Vladimir Levenshtein于1965年提出了这一概念。 简单例子 从字符串“kitten”修改为字符串“sitting”只需...
2018-03-19 16:44:22 10794 1
转载 python正则表达式 re (二)sub
背景:re.sub是re模块重要的组成部分,并且功能也非常强大,主要功能实现正则的替换。 re.sub定义: sub(pattern, repl, string, count=0, flags=0) Return the string obtained by replacing the leftmost non-overlapping occurrences of the pattern in s...
2018-03-19 11:09:58 238
转载 python正则表达式 re (二)escape
背景: 在使用python的过程中,你肯定对转义字符的使用苦恼过,因为有的时候我们需要使用一些特殊符号如”$ * . ^”等的原意,有时候需要被转义后的功能,并且转义字符地使用很繁琐,容易出错,那拯救你的就非re.escape莫属了。escape(pattern) Escape all non-alphanumeric characters in pattern.定义: re.escape(pat...
2018-03-19 11:06:45 1039
转载 机器学习时代的三大神器:GBDT,XGBOOST和LightGBM
本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每一步...
2018-03-17 12:50:31 13382 2
原创 Python 自然语言处理
pip install -U nltkpip install NetworkXfrom nltk.book import *text1.concordance("monstrous")text1.similar("monstrous")text2.common_contexts(["monstrous", "very"])text4.dispersion_plot(["citizens", "de.
2018-03-16 18:10:09 1279
转载 分位数回归模型学习笔记
我读硕士老师给我的第一篇论文就是一个分位数回归的文章,当时觉得这个模型很简单,我很快就用R的示例文件写了一个例子,但是,在后面的研究中,我越来越觉得,这个模型没有我想的那么简单,而且有着非常丰富的内涵需要来挖掘,就找了好几本书来看,结果真的是越看越懵,越看越懵,但是懵了一段时间之后,又重新感觉自己明白点了,所以赶紧把这一点进行一个总结,省的再放一段时间,连仅有的这一点懂的东西都没有了。首先随机变量...
2018-03-09 11:10:54 52386 6
转载 机器学习算法及其损失函数
[-]监督学习及其目标函数损失函数loss函数平方损失函数最小二乘法 Ordinary Least Squares平方损失Square loss的标准形式最小二乘法解线性回归最小二乘解log对数损失函数逻辑回归log损失函数的标准形式交叉熵logistic的损失函数表达式Hinge损失函数SVMHinge 损失函数的标准形式核函数感知损失感知机算法感知机算法的损失函数两者的等价指数损失函数Adab...
2018-03-09 11:07:56 2662
转载 机器学习(23)之GBDT详解
前言在(机器学习(20)之Adaboost算法原理小结)中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boostin...
2018-03-09 11:05:24 1408
转载 Huber Loss function
Huber loss是为了增强平方误差损失函数(squared loss function)对噪声(或叫离群点,outliers)的鲁棒性提出的。DefinitionLδ(a)={12a2,δ⋅(|a|−12δ),for |a|≤δ,otherwise.Lδ(a)={12a2,for |a|≤δ,δ⋅(|a|−12δ),otherwise.参数aa通常表示residuals,也即(y−y^)(y−...
2018-03-09 10:38:40 4779
转载 条件随机场(CRF)
条件随机场应该是机器学习领域比较难的一个算法模型了,难点在于其定义之多(涉及到概率图模型、团等概率)、数学上近似完美(涉及到概率、期望计算,最优化方面的知识),但是其在自然语言处理方面应用效果比较好,所以本文结合李航老师的《统计学习方法》学习一下。1.定义1.1 图 图是由结点和连接结点的边组成的集合。结点和边分别记作v和e,结点和边的集合分别记作V和E,图记作G=(V,E)。无向图是指边没有...
2018-03-07 17:36:49 500
转载 最大熵模型中的数学推导
最大熵模型中的数学推导0 引言 写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔。无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班。 10月26日机器学习班第6次课,邹讲最大熵模型,从熵的概念,讲到为何要最大熵、最大熵的推导,以及求解参数的IIS方法,整...
2018-03-07 15:42:50 234
转载 Python多进程处理:如何将大量数据放入有限内存
简介这是一篇有关如何将大量的数据放入有限的内存中的简略教程。与客户工作时,有时会发现他们的数据库实际上只是一个csv或Excel文件仓库,你只能将就着用,经常需要在不更新他们的数据仓库的情况下完成工作。大部分情况下,如果将这些文件存储在一个简单的数据库框架中或许更好,但时间可能不允许。这种方法对时间、机器硬件和所处环境都有要求。下面介绍一个很好的例子:假设有一堆表格(没有使用Neo4j、Mongo...
2018-03-07 14:41:41 3110
转载 决策树剪枝算法
剪枝作为决策树后期处理的重要步骤,是必不可少的。没有剪枝,就是一个完全生长的决策树,是过拟合的,需要去掉一些不必要的节点以使得决策树模型更具有泛化能力。决策树 决策树就是对一棵形似于树的判决模型,树的节点是某个属性,及分裂点,树的叶是类型。 在生长过程中,可以有很多种不同的生成准则,具体就不在详述了。不清楚的同学参考之前的博客:http://blog.csdn.net/yujianmin19...
2018-03-07 13:55:58 563
转载 决策树剪枝算法原理 损失函数 正则化
算法目的:决策树的剪枝是为了简化决策树模型,避免过拟合。同样层数的决策树,叶结点的个数越多就越复杂;同样的叶结点个数的决策树,层数越多越复杂。剪枝前相比于剪枝后,叶结点个数和层数只能更多或者其中一特征一样多,剪枝前必然更复杂。层数越多,叶结点越多,分的越细致,对训练数据分的也越深,越容易过拟合,导致拟合测试数据时反而效果差。算法基本思路:剪去决策树模型中的一些子树或者叶结点,并将其上层的根结点作为...
2018-03-07 13:35:24 3801
转载 机器学习评价指标大汇总
作者:无影随想 时间:2016年3月。 出处:http://www.zhaokv.com/2016/03/ml-metric.html声明:版权所有,转载请联系作者并注明出处 在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总。一、分类1. 精确率与召回率精确率与召回率多用于二分类问题。精确率(Precision)指的是模型判为正的所有样本中有多少是真...
2018-03-06 16:23:57 253
转载 决策树--信息增益,信息增益比,Geni指数的理解
决策树 是表示基于特征对实例进行分类的树形结构 从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据进行分割,使得各子数据集有一个最好的分类的过程。 决策树算法3要素:特征选择决策树生成决策树剪枝 部分理解: 关于决策树生成决策树的生成过程就是 使用满足划分准则的特征不断的将数据集划分为纯度更高,不确定性更小的子集的过程。对于当前数据集D的每一次的划分...
2018-03-06 15:45:57 495
转载 K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比
K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比 一、概述 在本篇文章中将对四种聚类算法(K-means,K-means++,ISODATA和Kernel K-means)进行详细介绍,并利用数据集来真实地反映这四种算法之间的区别。 首先需要明确的是上述四种算法都属于"硬聚类”算法,即数据集中每一个样本都是被100...
2018-03-06 15:11:04 1205
转载 Python可执行对象——exec、eval、compile
这篇文章将对Python提供的调用可执行对象的内建函数进行说明,涉及exec、eval、compile三个函数。exec语句用来执行存储在代码对象、字符串、文件中的Python语句,eval语句用来计算存储在代码对象或字符串中的有效的Python表达式,而compile语句则提供了字节编码的预编译。当然,需要注意的是,使用exec和eval一定要注意安全性问题,尤其是网络环境中,可能给予他人执行非...
2018-03-05 10:57:51 230
Pro Go The Complete Guide -go语言学习最新书籍
2023-06-19
Advanced_Programming_in_the_UNIX_Environment,_3rd
2018-11-30
Deep_Learning_Quick_Reference
2018-09-01
Convex Optimization Algorithms
2018-09-01
Guide.to.Medical.Image.Analysis.Methods.and.Algorithms
2018-09-01
Hands-On Data Science and Python Machine Learning py
2018-03-27
Python Machine Learning Machine Learning and Deep Learning
2018-03-27
Data Structures and Algorithms Using Python and C++
2018-03-27
R_for_Data_Science
2018-03-27
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
2018-03-17
Approximate.Dynamic.Programming.2011
2018-01-17
Swarm Intelligence Principles Advances and Applications
2018-01-13
Neural_Network_Methods_in_Natural_Language_Processing
2017-12-25
Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf
2017-12-18
Fundamentals of Deep Learning完整非扫描版本2017
2017-12-16
Text Mining in Practice with R 2017.12
2017-12-13
Text_Mining-From_Ontology_Learning_to_Automated_Text_Processing_Applications
2017-12-13
Tensorflow 机器学习参考手册2007
2017-11-22
Spark大数据处理技术 带标签 完整版
2017-11-12
模式分类11
2016-11-07
集体编程智慧
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人