_DuODuO___-CSDN博客

原创 gensim

训练预料的预处理训练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。通常，我们要处理的原生语料是一堆文档的集合，每一篇文档又是一些原生字符的集合。在交给Gensim的模型训练之前，我们需要将这些原生字符解析成Gensim能处理的稀疏向量的格式。我们需要先对原始的文本进行分词、去除停用词等操作，得到每一篇文档的特征列表。content_clean就是若干个被拆

2018-01-19 15:27:56 643

原创 Groupby

分组如果想按照key1进行分组，并计算data1的平均值。实现该功能的方式有很多，而我们这里要用的是：访问data1,并根据key1调用groupby一次传入多个数组

2018-01-18 20:43:35 283

原创 jieba分词器

分词jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接

2018-01-18 09:29:08 698

原创 warning, language png not recognized, use one of: dot canon plain plain-ext解决方法

在决策树可视化过程出现的问题1、找到dot.exe的路径，我的是 D:\Programe Files\graphviz\bin2、我的.dot和.png文件存储位置C:\Users\***\Documents\jiqixuexi\jueceshu3、指定路径：打开Windows命令行 4、重新进入运行就可以了。

2018-01-12 16:42:47 3265 2

原创 matplotlib

1、Figure和Subplotmatplotlib的图像都位于Figure对象中，用plt.figure创建一个新的Figure不能通过的空的Figure绘图。必须用add_subplot创建一个或多个subplot才行

2017-12-25 16:17:35 273

原创 pandas层次化索引

层次化索引能在一个轴上有多个索引级别。它使你能以低维度形式处理高纬度数据。创建一个Series并用一个列表或者数组组成的列表作为索引层次化索引对象在“内层”中进行选取通过unstack方法被重新安排到一个DataFrame中stack：函数将数据的行索引变成列索引。DataFrame结构变成Series结构。unstack:函数将数据的列索引变成行索引。Se

2017-12-22 14:09:38 1746

原创 pandas处理，填充缺失数据

1、pandas使用浮点值NaN表示浮点和非浮点数组的缺失数据对于一个Series可以用dropna方法或者通过布尔型索引达到目的2、对于DataFrame丢弃全NA丢弃全为NA的那些行丢弃全为NA的那些列利用thresh,留下一部分观测数据thresh=3,表示在行方向上至少有3个非NAN的项保留

2017-12-21 19:50:14 14949 1

原创 pandas带有重复值的轴索引，汇总和计算描述统计，相关系数与协方差

1、索引属性is_nuique判断值是否唯一如果索引对应多个值，则返回一个Series,而对应单个值的，则返回一个标量值2、汇总和计算描述统计axis:约简的轴。DataFrame的行用0列用1表示skipna:排除缺失值，默认值为Truelevel:如果轴是层次化索引的，则根据level分组简约

2017-12-21 08:40:28 1816

原创 pandas索引选取和过滤和ix的各种索引

1、对Series和DataFrame进行索引2、利用ix进行索引对series行进行索引和DataFrame行和列进行索引3、索引类型和说明obj[val] 选取DataFrame单个列或一组列在一些特殊的情况下会比较便利：布尔型数组，切片(行切片)，布尔型DataFrameobj.ix[] 选取DataFrame单个行或者一组列，可以切片(行切片)obj.ix[

2017-12-20 10:49:35 1133

原创 pandas索引与计算

2017-12-19 09:35:11 288

原创 numpy线性代数

一、线性代数1、计算矩阵的逆，运用linalg模块的inv函数 2、求解线性方程组Ax=B求解x，并用dot函数进行验证3、用eigvals求特征值，eig函数求特征值和对应的特征向量

2017-12-18 15:35:14 305

原创 numpy矩阵和通用函数

一、矩阵的创建1、用math函数创建矩阵，用T属性获得矩阵转置，用I属性获得矩阵的逆。2、bmat函数获得复合矩阵3、算数运算divide，true_divide,floor_division函数。divide返回的是整数部分，true_divide返回浮点数结果而且不截断。运算符分别为/和//4、模运算remainder函数返回两个数组元素相除后的余数，运

2017-12-18 11:00:29 328

原创 numpy函数

一、数组常用函数 1、where根据指定条件返回所有满足条件的数组元素的索引值 2、take(a,index)从数组a中按照索引index取值 3、average(a,weights=v)对数组a以权重为V进行加权平均 4、min(a),max(a),middle(a),var(a),std(a) 最小值，最大值，中间值，方差，标准差 5、ptp

2017-12-16 20:44:41 338

原创 numpy多为数组和切片的索引

1、创建一个三维的数组22、b=[0:0:0]表示去所有层，所有行所有列。我们可以用三维坐标选定任意一个房间，即楼层，行号和列号表示去第一层，所有行所有列的房间。多个冒号可以用省略号来代替3、选取所有楼层，第2列的房间4、第1层位于第2列的房间5、第1层最后1列的房间，-1表示最后一列6、反向选取第1层，倒数第1行的房间。：：-1表示逆向选取

2017-12-16 10:23:33 274

原创 networkx学习

1、需要导入的包import networkx as nx #导入NetworkX包，命名为nxG = nx.Graph() #建立一个空的无向图GG.add_node(1)

2017-11-20 08:49:06 300

weixin_38490102的博客