自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

web crawler/python/NLP

  • 博客(46)
  • 资源 (1)
  • 问答 (2)
  • 收藏
  • 关注

原创 python内置函数之map函数的水桶效应------计算几个列表中相同位置的数据的和

lst1 = [1, 3, 5, 7]lst2 = [2, 4, 6, 8, 10]m = map(lambda x, y, z: x + y+ z, lst1, lst2, [5,1,2,3,6])print(list(m))

2020-01-31 12:14:22 369

转载 python 两个装饰器装饰一个函数的运行规则(穿秋裤原则)

先穿后脱的秋裤原则def set_fun1(func1): print("set_fun1") def call_fun1(): print("call_fun1") func1() return call_fun1 def set_fun2(func2): print("set_fun2") def call_fun2(): print("call_fun2")...

2020-01-30 18:16:33 315

转载 关于Python脚本开头两行的:#!/usr/bin/python和# -*- coding: utf-8 -*-的作用

https://www.cnblogs.com/mude918/p/8997270.html

2020-01-30 00:07:17 326 1

转载 python 变量作用域(LEGB)

L(local)局部作用域局部变量:包含在def关键字定义的语句块中,即在函数中定义的变量。每当函数被调用时都会创建一个新的局部作用域。E(enclosing)嵌套作用域或称为闭包作用域E也包含在def关键字中,E和L是相对的,E相对于更上层的函数而言也是L。与L的区别在于,对一个函数而言,L是定义在此函数内部的局部作用域,而E是定义在此函数的上一层父级函数的局部作用域。主要是为了实现Pyt...

2020-01-28 22:42:25 496

原创 对 python 生成器函数的深入理解

生成器函数本质上就是迭代器def Generator(): for i in range(10000): yield ig = Generator() # 获取生成器n1 = g.__next__()print(n1)使用 send() 可以给生成器的上一个yield传值, 不能再开头(没有上一个yield), 最后一个yield也不可以用send()def...

2020-01-27 16:03:07 184

原创 Python 迭代器的深入理解

迭代器的性质只能向前.节省内存惰性机制迭代器的使用:python 对象的 dir (查看某类型的数据可以执行哪些方法)中有__iter__的都是迭代器对象可迭代对象可以使用__iter__()来获取到迭代器迭代器里面有__next__()lst = [1,2,3,4,5]it = lst.__iter__()# 获取迭代器对象s = list(it) # 在li...

2020-01-27 14:47:20 195

原创 python 对生成器函数的深入理解练习题

def add(a, b): return a + b# 定义生成器函数def test(): for i in range(4): yield ig = test() # 获取生成器for n in [1,2,10]: ''' gen = (i for i in range(10))是一个有惰性机制的生成器 没有元组推导式,因为创建推导式要进行增加操作,但元...

2020-01-26 23:10:36 440

原创 python 中 global 与 nonlocal 的使用

a=0def func01(): global a a = 30def func02(): a = 0 def inner(): nonlocal a a=10 print(a)

2020-01-25 22:12:07 202

原创 python 方法与函数的区别与判断

判断方法:一般我们称def 写在类中就是方法,写在外面函数方法不用传self(自动传),函数需要手动传self参数较为严格的判断:对象.def01–> def01就是方法其它的都是函数eg:类.def01–> def01就是函数def01–> def01就是函数class Foo(object): def f1(self): ...

2020-01-25 21:21:18 393

原创 python 使用魔术方法__iter__创建可迭代对象

如果想要创建可迭代对象,在类中定义__iter__方法, iter内部返回一个迭代器(生成器也是一种特殊迭代器)变成类似像list对象那样的可迭代对象class Foo(object): def __init__(self,name,age): self.name = name self.age = age def func(self): ...

2020-01-24 16:54:47 404

原创 python 面向对象之真正的构造方法魔术方法__new__

python 类中的__init__方法并非真正的构造方法,在类名加()自动调用__init__之前还调用了__new__方法,而__new__必须返回一个当前类对象才能继续调用__init__,__init__实际上是初始化方法class Foo(object): def __init__(self, a1, a2): # 初始化方法 """ 为...

2020-01-24 16:40:33 403

原创 python 在类中主动调用其他类的成员

将两个类的函数合在一起时这么写class Base(object): def f1(self): print('5个功能')class Foo(object): def f1(self): print('3个功能') # 用类名调用实例方法不能自动传self,需要手动传参 Base.f1(self)obj = Foo()obj.f1()...

2020-01-23 21:46:31 790

原创 python面向对象类的成员之属性语法糖装饰器

class Foo(object): def __init__(self): pass # 但实例方法没有返回值且返回一个值时可以用装饰器把方法变成属性 @property def start(self): return 1 @property def end(self): return 10ob...

2020-01-23 14:08:50 268

原创 python类的成员之类/私有类变量,实例/私有实例变量,实例方法,静态方法,类方法示例详解

class Foo(object): # 类变量/静态变量 country = "中国" # 私有类变量/静态变量,只能内部调用或从外部间接调用 __province='河南' def __init__(self, name): # 实例变量/字段 self.name = name # 私有实例变量/字段,只能内部调用或从外部间接调用 self.__age = 18 ...

2020-01-23 12:47:01 452

原创 python类与对象的区别

加个括号才是对象(self与cls的区别):self是当前对象类方法中中cls是当前类

2020-01-23 12:10:41 340

原创 python面向对象之多态鸭子类型与Java的比较

python本身支持多态,即参数不用指定数据类型,所有多态在python中没有意义,因为python中多态都是这么写的:class Foo1: def f1(self): pass class Foo2: def f1(self): pass class Foo3: def f1(se...

2020-01-23 08:34:24 547

原创 python面向对象之self

class Base1: def f1(self): print('base1.f1') def f2(self): print('base1.f2')class Base2: def f1(self): print('base2.f1') def f2(self): print('base2.f...

2020-01-22 12:46:38 386

原创 python多继承之先继先承

class Base1: def show(self): print('Base1.show')class Base2: def show(self): print('Base2.show')class Foo(Base1,Base2): passobj = Foo()obj.show()结果:Base1.showBas...

2020-01-22 12:39:50 213

原创 函数式编程与面向对象的对比

随着函数参数和调用次数的增多,函数式编程优势逐渐下降

2020-01-22 10:43:43 355

原创 python 关键字参数与面向对象的封装思想对比

使用关键字参数封装打包def func(**kwargs): print(kwargs['k1']) print(kwargs['k2']) print(kwargs['k3'])func(k1=123,k2=465,k3=9)使用类的封装思想def new_func(arg): arg.k1 arg.k2 arg.k3cla...

2020-01-22 10:30:37 226

原创 谷歌浏览器黑色主题设置

2020-01-20 20:38:03 4161

原创 Ubuntu18 -bash: make: command not found

sudo apt-get install gcc automake autoconf libtool make

2020-01-18 10:17:57 4255

原创 Ubuntu18下python(Anaconda)中安装hanlp与简单使用测试无需安装Java

sudo apt install gccsudo apt install g++pip install hanlp测试:参考:https://github.com/hankcs/HanLP

2020-01-17 20:54:02 766 1

原创 Ubuntu18安装Anaconda3与简单使用

bash Anaconda3-2019.10-Linux-x86_64.sh然后一路yes或回车关闭终端,重新打开:输入python即可进入conda自带python交互环境输入jupyter notebook打开jupyter notebook键入spyder打开spyder...

2020-01-17 20:11:24 436

原创 解决FileZilla连接虚拟机尝试连接“ECONNREFUSED - 连接被服务器拒绝”失败

先在虚拟机中下载ssh服务sudo apt-get install openssh-server开启ssh服务/etc/init.d/ssh start换成sftp用ssh连成功:

2020-01-17 17:45:37 4001 1

转载 Ubuntu18.04更换国内源

https://www.cnblogs.com/it-tsz/p/9742311.html

2020-01-17 16:17:06 395

原创 Ubuntu安装window下的everything(谁用谁知道)---Fsearch

sudo add-apt-repository ppa:christian-boxdoerfer/fsearch-dailysudo apt-get updatesudo apt install fsearch-trunk

2020-01-17 16:15:58 4187 2

转载 Ubuntu18 更改终端字体大小

https://www.cnblogs.com/tyty-Somnuspoppy/p/10024668.html

2020-01-17 15:33:37 592

原创 stanford NLP 介绍与安装,使用

介绍stanford NLP 拿过全球分词第一名,用Java写的,有python接口jieba只支持中文分词安装:下载https://stanfordnlp.github.io/CoreNLP/download.html解压后然后再下个中文模型的jar包:stanford-chinesecorenlp-2018-02-27-models.jar放到解压后的目录下简单使...

2020-01-17 08:48:37 1327

原创 Unsupervised Learning Algorithms 无监督学习算法总结

• K-means• PCA (Principal Component Analysis)• ICA (Independent Component Analysis)• MF (Matrix Factorization)• LSA (Latent Semantic Analysis)• LDA (Latent Dirichlet Allocation)

2020-01-05 14:17:53 453

原创 Supervised Learning Algorithms 监督学习算法总结

• 线性回归(Linear Regression)• 逻辑回归 (Logistic Regression)• 朴素⻉叶斯 (Naïve Bayes)• 神经⽹络 (Neural Network)• SVM (Support Vector Machine)• 随机森林 (Random Forest)• Adaboost• CNN (Convolutional Neural Networ...

2020-01-05 14:15:12 559

原创 专家系统的缺点 (drawback) 与优点

drawback:•设计⼤量的规则 (Design Lots of Rules)• 需要领域专家来主导 (Heavily Reply on Domain Expert)• 可移植性差 (Limited Transferability to other Domain)• 学习能⼒差 (Inability to Learn)• ⼈能考虑的范围是有限的 (Human Capacity is L...

2020-01-05 14:11:05 5953

原创 专家系统的推理引擎

基于符号主义的专家系统的推理引擎主要用的是离散数学的知识,而基于连接主义的ML与DL主要是概率论知识

2020-01-05 13:48:10 717

原创 python 动态规划题------求最长上升子序列个数

def len_of_longest_ascending_subsequences(nums): if len(nums)<=1: return len(nums) # 用来存放各个字串的最长上升子序列个数 mem = [0 for _ in range(len(nums))] for j in range(1,len(nums)): for i in ran...

2020-01-04 20:06:34 1294

原创 python 动态规划题------求最大连续子串和

def maxSubArray(nums): ''' 求最大子串和 ''' # print(len(nums)) # 如果该串长度为一,和最大的子串就是本身 if len(nums)==1: return nums[0] # 用来存放每次更新的最大子串和 max_ret = nums[0] cur_max = last_max = nums[0] # 状态转移方程,一...

2020-01-04 19:11:05 1235

原创 Causality 第二版目录

内容第一版页面 xv 的序言第二版序言 xix1 概率,图形和因果模型简介 11.1 概率论导论 11.1.1 为什么是概率? 1 个1.1.2 概率论 2 的基本概念1.1.3 结合预测和诊断支持 61.1.4 随机变量和期望 81.1.5 条件独立和 Graphoids 111.2 图和概率 121.2.1 图形符号和术语 121.2.2 贝叶斯网络 131.2.3 ...

2020-01-04 15:13:33 562

原创 解决因该词词典中不存在而句子概率为零问题----------------Smoothing

Add-one Smoothing即Laplace Smoothing 拉普拉斯平滑MLE(最大似然估计)PMLE(wi∣wi−1)=c(wi−1,wi)c(wi)\mathrm{P}_{\mathrm{MLE}}\left(\mathrm{w}_{\mathrm{i}} | \mathrm{w}_{\mathrm{i}-1}\right)=\frac{\mathrm{c}\left(...

2020-01-03 16:27:34 228

原创 语言模型的评估

用预测下一个词的方式来判断Perplexity

2020-01-02 23:52:12 221

原创 训练语言模型

就是根据马尔科夫假设计算概率的过程UnigramBigram1st order markov assumption

2020-01-02 23:45:24 435

原创 Markov Assumption 解决Language Model 的Sparsity问题

即相当于商品推荐一个月兴趣转移假设即马尔科夫假设:1st order markov assuption2st order markov assuption

2020-01-02 23:31:15 237

大数据开发各基础组件(Linux)

apache-hive-2.1.1-bin.tar.gz hadoop-2.7.3.tar.gz hbase-1.2.4-bin.tar.gz jdk-8u171-linux-x64.tar.gz zookeeper-3.4.10.tar.gz

2019-02-03

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除