自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 gensim

训练预料的预处理训练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。通常,我们要处理的原生语料是一堆文档的集合,每一篇文档又是一些原生字符的集合。在交给Gensim的模型训练之前,我们需要将这些原生字符解析成Gensim能处理的稀疏向量的格式。我们需要先对原...

2018-01-19 15:27:56

阅读数 357

评论数 0

原创 Groupby

分组如果想按照key1进行分组,并计算data1的平均值。实现该功能的方式有很多,而我们这里要用的是:访问data1,并根据key1调用groupby一次传入多个数组

2018-01-18 20:43:35

阅读数 150

评论数 0

原创 jieba分词器

分词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒...

2018-01-18 09:29:08

阅读数 415

评论数 0

原创 warning, language png not recognized, use one of: dot canon plain plain-ext解决方法

在决策树可视化过程出现的问题 1、找到dot.exe的路径,我的是   D:\Programe Files\graphviz\bin 2、我的.dot和.png文件存储位置C:\Users\***\Documents\jiqixuexi\jueceshu 3、指定路径:打开Windows命令...

2018-01-12 16:42:47

阅读数 660

评论数 2

原创 matplotlib

1、Figure和Subplot matplotlib的图像都位于Figure对象中,用plt.figure创建一个新的Figure 不能通过的空的Figure绘图。必须用add_subplot创建一个或多个subplot才行

2017-12-25 16:17:35

阅读数 134

评论数 0

原创 pandas层次化索引

层次化索引能在一个轴上有多个索引级别。它使你能以低维度形式处理高纬度数据。 创建一个Series并用一个列表或者数组组成的列表作为索引 层次化索引对象 在“内层”中进行选取 通过unstack方法被重新安排到一个DataFrame中 stack:函数将数据的行索引变成列索引。DataFra...

2017-12-22 14:09:38

阅读数 1099

评论数 0

原创 pandas处理,填充缺失数据

1、pandas使用浮点值NaN表示浮点和非浮点数组的缺失数据 对于一个Series可以用dropna方法或者通过布尔型索引达到目的 2、对于DataFrame丢弃全NA 丢弃全为NA的那些行 丢弃全为NA的那些列 利用thresh,留下一部分观测数据 thresh=3,表示在行方向上至少...

2017-12-21 19:50:14

阅读数 8682

评论数 1

原创 pandas带有重复值的轴索引,汇总和计算描述统计,相关系数与协方差

1、索引属性is_nuique判断值是否唯一 如果索引对应多个值,则返回一个Series,而对应单个值的,则返回一个标量值 2、汇总和计算描述统计 axis:约简的轴。DataFrame的行用0列用1表示 skipna:排除缺失值,默认值为True level:如果轴是层次化索引的,则根据lev...

2017-12-21 08:40:28

阅读数 1146

评论数 0

原创 pandas索引选取和过滤和ix的各种索引

1、对Series和DataFrame进行索引 2、利用ix进行索引对series行进行索引和DataFrame行和列进行索引 3、索引类型和说明 obj[val]  选取DataFrame单个列或一组列在一些特殊的情况下会比较便利:布尔型数组,切片(行切片),布尔型DataFr...

2017-12-20 10:49:35

阅读数 725

评论数 0

原创 pandas索引与计算

2017-12-19 09:35:11

阅读数 127

评论数 0

原创 numpy线性代数

一、线性代数 1、计算矩阵的逆,运用linalg模块的inv函数     2、求解线性方程组Ax=B求解x,并用dot函数进行验证 3、用eigvals求特征值,eig函数求特征值和对应的特征向量

2017-12-18 15:35:14

阅读数 145

评论数 0

原创 numpy矩阵和通用函数

一、矩阵的创建 1、用math函数创建矩阵,用T属性获得矩阵转置,用I属性获得矩阵的逆。 2、bmat函数获得复合矩阵 3、算数运算 divide,true_divide,floor_division函数。divide返回的是整数部分,true_divide返回浮点数结果而且不截断。运算符分别为...

2017-12-18 11:00:29

阅读数 179

评论数 0

原创 numpy函数

一、数组常用函数    1、where根据指定条件返回所有满足条件的数组元素的索引值    2、take(a,index)从数组a中按照索引index取值    3、average(a,weights=v)对数组a以权重为V进行加权平均    4、min(a),max(a),middle(a),v...

2017-12-16 20:44:41

阅读数 181

评论数 0

原创 numpy多为数组和切片的索引

1、创建一个三维的数组 2 2、b=[0:0:0]表示去所有层,所有行所有列。我们可以用三维坐标选定任意一个房间,即楼层,行号和列号 表示去第一层,所有行所有列的房间。多个冒号可以用省略号来代替 3、选取所有楼层,第2列的房间 4、第1层位于第2列的房间 5、第1层最后1列的房间,-1...

2017-12-16 10:23:33

阅读数 92

评论数 0

原创 networkx学习

1、需要导入的包 import networkx as nx                            #导入NetworkX包,命名为nx G = nx.Graph()                                        #建立一个空的无向图G G.ad...

2017-11-20 08:49:06

阅读数 143

评论数 0

提示
确定要删除当前文章?
取消 删除