Python数据分析
Python之简
人一定要逼自己一把
展开
-
Pandas入门学习(1)
文章目录Pandas教程1、SeriesSeries的构造创建Seriesndarray创建Seriesdict创建Series标量创建Series访问Series数据使用指定位置访问Series使用标签访问Series2、DataFrameDataFrame的构造创建DataFrame列表创建DataFramendarrays/Lists的字典创建DataFrame列表创建DataFrame用S...原创 2018-10-18 00:26:21 · 586 阅读 · 0 评论 -
Gensim
Gensim是一款开源的工具包,用于从原始的非结构化的文本,无监督的学习到文本隐层的主题向量表达。支持 TF-IDF、LSA、LDA、Word2Vec 等多种主题模型算法。支持流式训练 ,提供了相似度计算,信息检索等常用任务的 API 接口。基本概念语料:原始文本集合,用于无监督的训练文本主题的隐层结构。语料中不用 人工标注 附加信息。在 Gensim 中,Corpus 通常是一个...原创 2018-11-22 20:17:22 · 2147 阅读 · 0 评论 -
Word2vec
Word2vec目的:从文档中有效的自动抽取语义主题。处理原始的、非结构化的文本。gensim 中的算法有LSA、LDA、RP、TF-IDF、word2vec,通过在一个训练文档语料库中,检查词汇统计联合出现模式,发掘文档语义结构,这些算法属于 非监督 学习,无需人工输入,自己只需要提供一个语料库即可。语料:原始文本集合,用于无监督的训练文本主题的隐层结构。语料中不用 人工标注 附加...原创 2018-11-19 10:26:58 · 1211 阅读 · 0 评论 -
Numpy 数组
Numpy 数组Numpy数组是具有固定大小的类型化数组。Numpy数组是同质的,只能存放同一种类型的对象。数组由两部分组成:存储在连续的内存块中的实际数据描述实际数据的元数据文章目录Numpy 数组创建一维数组创建多维数组选择 Numpy 数组元素Numpy 的数值类型数据类型对象字符码dtype 属性一维数组的切片与索引处理数组形状堆叠数组拆分 Numpy 数组Numpy ...原创 2018-10-30 23:24:30 · 1216 阅读 · 0 评论 -
Mac下matplotlib中文乱码
Mac下matplotlib中文乱码字体下载:地址第一步寻找字体路径>>> import matplotlib>>> matplotlib.matplotlib_fname()'/Users/hubo/code/.venv/lib/python3.6/site-packages/matplotlib/mpl-data/matplotlibrc'字...原创 2018-10-24 23:17:11 · 726 阅读 · 0 评论 -
Pandas入门学习(4)
文章目录Pandas 常用功能Pandas分组将数据拆分成组查看分组迭代遍历分组选择一个分组聚合一次使用多个聚合函数过滤Pandas 合并/连接在一个键上合并两个DataFrame合并多个键上的两个DataFramehow参数3、Pandas IO工具自定义索引转换器指定标题名称Pandas 常用功能Pandas分组在许多情况下,我们将数据分成多个集合,并在每个子集上应用一些函数。在应用函...原创 2018-10-23 21:57:38 · 696 阅读 · 0 评论 -
DataFrame 数据合并(merge,join,concat)
DataFrame 数据合并(merge,join,concat)文章目录DataFrame 数据合并(merge,join,concat)merge特性示例(1)特性示例(2)特性示例(3)特性示例(4)join示例concat示例(1)示例(2)示例(3)append汇总mergemerge 函数通过一个或多个键将数据集的行连接起来。场景:针对同一个主键存在的两张包含不同特征的表,通...原创 2018-10-21 23:30:40 · 21922 阅读 · 0 评论 -
Pyplot基础教程
Pyplot基础教程matplotlib的pyplot子库提供了和matlab类似的绘图API绘图基础定义图像窗口plt.figure() # 定义一个图像窗口plt.show() # 显示图像figure窗口plt.figure(num=3, figsize=(8,5)) # 图像窗口,编号为3,大小为(8,5)plt.plot(x,y,color='...原创 2018-10-25 15:21:28 · 1646 阅读 · 0 评论 -
Pandas常用方法
Pandas常用方法常用属性np.array(list,dtype=np.int) 创建一个数组np.shape 显示np数组属性np.ndim 显示数组维度np.dtype 显示数组元素类型np.itemsiex 数组元素所占字节大小np.size 数组元素个数np.arange(1,11) 产生一个1-11的等差数列np.aran...原创 2018-10-25 15:20:48 · 833 阅读 · 0 评论 -
Pandas入门学习(3)
文章目录Pandas 常用功能1、Pandas 迭代迭代 DataFrameiteritems()示例iterrows()示例itertuples()示例2、Pandas 排序按标签排序按列排序按值排序3、Pandas索引和选择数据方法索引loc()iloc()ix()运算符索引符号访问属性访问4、Pandas 统计函数百分比(pct_change())相关性(corr())数据排名(rank()...原创 2018-10-18 18:02:54 · 221 阅读 · 0 评论 -
Pandas入门学习(2)
文章目录Pandas 基本功能1、Series 基本属性axes 示例empty 示例ndim 示例size 示例values 示例head() 和 tail() 方法示例2、DataFrame 基本属性T(转置)示例axes 示例dtype 示例empty 示例ndim 示例shape 示例size 示例values 示例head() 和 tail() 方法示例3、DataFrame 描述统计d...原创 2018-10-18 11:27:40 · 393 阅读 · 0 评论 -
NLP文本相似度
NLP文本相似度相似度度量:计算个体间相似程度jieba:Python的第三方库,用于自然语言处理,对文本进行分词。gensim:利用 TF-IDF 算法来进行文本相似度计算。处理思路: jieba 进行分词,整理为指定格式,利用 gensim 库将要对比的文档通过 doc2bow 转换成稀疏向量,再通过 models 中的 TF-IDF 将语料库进行处理,特征值和稀疏矩阵相似度建...原创 2018-11-20 09:52:31 · 1778 阅读 · 0 评论