自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 NLP文本信息向量化之特征提取

TF-IDF信息检索中最常用的一种文本关键信息表示法基本思想:若在一个文档中出现的频率高,且在语料库中其它文本中很少出现,则人文这个词库有很好的区分能力。词频TF:Term Frequency,衡量一个term在文档中出现的有多频繁,越频繁,其重要性可能越高。考虑到文章长度差异,需要对词频做标准化:TF(t)=(t出现在文档中的次数)/(文档中term总数)TF(t)=(t出现在文...

2019-12-14 14:20:12 1324

原创 文本信息向量化

1. 词袋模型(bow bag of words)one-hot表示方法对语料进行清理,完成分词–大鱼吃小鱼也吃虾米,小鱼吃虾米对每个词进行编号,形成字典–{“大鱼”:1,“吃”:2,“小鱼”:3,“也”:4,“虾米”:5}用0/1代表该词是否出现在文本中,记录成特征向量–[1,1,1,1,1],[0,1,1,0,1],不同考虑词频的问题缺点:不考虑词与词之间的顺序,它假设词与词相互...

2019-11-24 15:30:09 537

原创 中文分词与去除停用词

jieba分词的三种模式精确模式:把文本精确的切分开,不存在冗余单词。全模式:把文本中所有可能的词语都扫描出来,有冗余。搜索引擎模式:在精确模式基础上,对长词再次切分。jieba库的解析jieba.cut(s):精确模式,返回一个可迭代的数据类型,生成迭代器。jieba.cut(s,cut_all=True):全模式,输出文本s中所有可能的单词,生成迭代器。jieba.cut_...

2019-11-24 15:10:21 16161 2

原创 pyecharts绘图01

注意,本文的代码是在notebook上运行的!那么先简单地试一下吧import pyecharts.charts as pyecx = ['A','B','C']y = [300,800,500]bar = pyec.Bar()bar.add_xaxis(x)bar.add_yaxis(series_name='公司A',yaxis_data=y)bar.render_note...

2019-11-09 18:29:54 717

原创 pyecharts介绍与安装

介绍ECarts,一个使用JavaScript实现的开源可视化库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器,底层依赖轻量级的矢量图形库ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。ECharts是百度开源可视化工具。pyecharts是国内实现python调用echarts库。特性简洁的API设计,使用流畅,支持链式调用。囊括了30+种常见...

2019-11-08 13:56:17 333

原创 seaborn绘图03

接上2.密度图(kde)sns.kdeplot(data,data2=None,shade=False)单变量密度图n = 1024x = np.random.normal(0,1,n)g = sns.kdeplot(x)plt.title('密度图',fontproperties='SimHei')plt.savefig("F:\\01.jpg")结果:shade阴影...

2019-11-07 14:54:36 1362

原创 Seaborn绘图02

准备工作import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlineimport numpy as npimport pandas as pdplt.rcParams['axes.unicode_minus'] = False #用来正常显示负号#seaborn中显示中文sns.set_style('...

2019-10-27 14:27:52 947 3

原创 Seaborn绘图01

Seaborn绘图表分类分类图:柱状图barplot、箱线图boxplot、小提琴图violinplot、散点图(stripplot、swarmplot)、以及分面网格(FacetGrid)分类图catplot。关联图:散点图scatterplot、线图lineplot、以及分面网格(FacetGrid)关联图relplot。分布图:单变量分布图distplot、密度图kdeplot。矩...

2019-10-13 18:03:58 482

原创 Matplotlib绘图04

plt.boxplot():箱线图data = [np.random.normal(0,std,100) for std in range(1,4)]plt.boxplot(data)结果:上面是最简单的箱线图,我们可以用notch=True使它更加好看data = [np.random.normal(0,std,100) for std in range(1,4)]plt.box...

2019-10-12 20:36:12 361

原创 Matplotlib绘图03

准备工作import matplotlib.pyplot as plt #导入模块matplotlib.pyplot#在notebook中显示所绘图像%matplotlib inline plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False #...

2019-10-11 18:43:03 303

原创 Matplotlib绘图02

plt.gcf()与plt.gca()- plt.gca():获取到坐标轴(axes)的对象或者类。x = np.linspace(0,10,1000)y = np.sin(x)plt.plot(x,y)ax = plt.gca()#改变坐标轴颜色ax.spines["right"].set_color("red") ax.spines["left"].set_color("yel...

2019-10-10 13:10:09 402

原创 Matplotlib模块绘图01

基于Matplotlib模块的绘图Matplotlib是Python最著名的绘图库之一,提供了一整套和MATLAB相似的命令API,既适合交互式地进行制图,也可以作为绘图控件方便地嵌入GUI应用程序中。可以内嵌Latex语言(排版用的语言)导入所需模块#导入模块matplotlib.pyplotimport matplotlib.pyplot as plt #在notebook中...

2019-09-21 15:19:31 214

转载 Numpy使用指南

https://blog.csdn.net/a373595475/article/details/79580734

2019-09-15 16:59:15 83

原创 初步接触NLP

马纳瑞斯曾给自然语言处理(natural language processing)提出以下定义:“自然语言处理可以定义为研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”因此自然语言处理是一门交叉学...

2019-09-08 12:05:18 103

原创 生成器与迭代器

01.生成器>>>[i * i for i in range(5)] #列表推导式[0, 1, 4, 9, 16]### 生成器表达式>>>(i * i for i in range(5))<generator object <genexpr> at 0x000001AB98F08DE0>查看生成器对应的所有元素,有两...

2019-06-08 14:05:46 168

原创 面向对象编程(5)

__new__当使用“类名([实参])”创建实例对象时,Python解释器的主要处理过程有两大步:1.调用特殊方法__new__()创建对象。- 首先会查找对象是否实践了书方法__new__(),若没有实践,则去其父类中依次查找,直到哦到类对象object。2.调用特殊方法__init__()对你的实例对象进行初始化。- __new__()返回的实例对象会作为实参被自动传递给__ini...

2019-06-02 14:26:57 109

原创 面向对象编程(4)

issubclass()与isinstance()内置函数issubclass()用于判断类对象与类对象之间的关系。内置函数isinstance()用于判断实例对象与类对象之间的关系。内置函数issubclass内置函数issubclass接收两个参数:第一个实参是类对象,第二个实参是类对象或由类对象组成的元组。当第二个实参是类对象时,若第一个实参是第二个实参的子类,那么返回Tru...

2019-05-27 21:54:26 110

原创 面向对象编程(3)

封装继承多态封装含义:将数据(属性)和行为(方法)包装到类对象中,在方法内部对属性进行操作,在类对象的外部调用方法。无需关心方法内部的具体实现细节,从而隔离了复杂度。在类对象的内部通过访问控制把某些属性和方法隐藏起来,不允许在类对象外部直接访问,而是在类对象的内部对外提供公开的接口方法(如getter和setter)以访问隐藏的信息。这样,就对隐藏的信息进行了保护。class...

2019-05-20 11:50:24 118

原创 面向对象编程(2)

实例方法实例方法指的是只有实例对象才可以调用的方法在类对象中定义实例方法时,第一个形参表示调用该方法的实例对象,其对应的实参由系统自动传入。第一个形参的名称通常是self,也可以是其它名称。实例方法只能被实例对象所调用,有两种调用方式:- 在类对象的内部:self.方法名([实参])- 在类对象的外部:实例对象.方法名([实参])类对象的所有实例对象都有一个指向类对象的指针,所以,类对...

2019-05-20 11:37:11 151

原创 面向对象编程

1、面向对象编程概述面向对象编程(oop),是一种编程方式,这种编程方式需要使用“对象”实现。对象的特征世界万物皆对象每个对象都是唯一的对象具有属性和行为对象具有状态对象分为类对象和实例对象两大类:- 类对象是具有相同属性和行为的实例对象的抽象- 类对象是实例对象的模板,实例对象是有类对象创造出来的- 同一个类对象的所有实例对象若具有相同的属性,表明它们的属性的含义是相同的,...

2019-05-06 19:25:56 110

原创 文件系统

1、标准库OS常用命令命令描述os.getcwd()查看当前路径os.chdir(‘路径’)修改当前路径os.mkdir(‘文件名’)建立一个子文件夹,已存在时会报错os.rmdir(‘文件名’)删除一个文件夹,不存在时报错os.listdir()列出当前目录或指定目录下所有文件夹及文件的名称,返回一个列表os.rename(‘a.tx...

2019-05-06 18:40:02 92

原创 模块与包

模块1.什么是模块模块是对应于python源代码文件模块是以**.py**为扩展名的python文件。python中的模块包括模块、第三方模块和用户自定义模块。通过导入模块,可以使用该模块中的变量、函数和类等。使用模块,可以将计算任务分解为大小合理 的子任务,并实现代码的重用功能。2.模块的API模块化程序设计的基本原则是先设计API(即模块提供的函数或类的功能 描述),然后...

2019-04-22 18:38:59 99

原创 函数

函数参数的传递def test_fun(a,b=6,*c,**d):#c为元组,d为字典 print("a=",a,",b=",b,",c=",c,",d=",d)test_fun(1)####a= 1 ,b= 6 ,c= () ,d= {}>>>test_fun(1,2)a= 1 ,b= 2 ,c= () ,d= {}>>>test_f...

2019-04-13 15:55:33 297

原创 标准库time、datetime、calendar、random的使用

time库的使用一、时间的获取time():获取当前时间戳,即计算机内部时间值,浮点数ctime():获取当前时间并以易读形式表示,返回字符串gmtime():获取当前时间,表示为计算机可处理时间格式>>>time.time()1555131830.0089278>>>time.ctime()'Sat Apr 13 13:04:21 2019...

2019-04-13 15:17:38 150

原创 组合数据类型

序列类型1.序列类型的通用操作符和函数操作符描述x in s若x是s的元素,返回True,否则返回Falsex not in s若x不是s的元素,返回True,否则返回Falses+t连接s和ts * n或n * s将序列s复制n次s[i]索引,返回序列的第i个元素s[i:j]分片,返回包含序列s第i到j个元素的子序列(不包含第j个...

2019-03-30 20:51:44 617

原创 Python字符串操作方法

大小写转换1.返回S字符串的大写、小写格式S.lower()S.upper()>>>print('abCD'.lower())abcd>>>print('abCD'.upper())ABCD2.返回S字符串中所有单词的首字母大写且其他字母小写S.title()>>>print('ab CD'.title())Ab Cd...

2019-03-24 15:17:15 374

原创 Python内置函数

参考:https://www.cnblogs.com/linux-chenyang/p/6473820.html数学运算1.绝对值&gt;&gt;&gt;abs(-1)12.返回 x / y 的商和余数&gt;&gt;&gt;divmod(5,2)(2,1)3.返回最大值&gt;&gt;&gt;max(1,2,3)34.返回最小值&gt;&gt;&gt;min(1,2...

2019-03-15 18:22:24 88

原创 Math标准库函数汇总

四个常数&gt;&gt;&gt;math.e2.718281828459045&gt;&gt;&gt;math.pi3.141592653589793&gt;&gt;&gt;math.infinf&gt;&gt;&gt;math.tau6.283185307179586常用函数三角函数1.弧度转角&gt;&gt;&gt;math.degrees(math.p

2019-03-15 16:03:07 240

原创 Jupyter And Markdown 初步了解

Jupyter And Markdown 初步了解

2019-03-13 21:01:30 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除