![](https://img-blog.csdnimg.cn/20201218122053330.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Tool1-2 Third-Party
Third-Party
sevieryang
DM/DW/Statistics/Quant
展开
-
【记录】读写hd5
零售转批量,很重要原创 2020-12-25 15:58:28 · 267 阅读 · 0 评论 -
【报错】ValueError: numpy.ufunc size changed, may indicate binary incompatibility.
ValueError: numpy.ufunc size changed, may indicate binary incompatibility.numpy版本过高的问题:卸载安装pip install numpy -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com原创 2020-12-24 17:53:30 · 916 阅读 · 1 评论 -
hd5的关闭报错,文件报错等
ValueError: The file ‘a_stock_100.h5’ is already opened, but not in read-only mode (as requested).Closing remaining open files:a_stock_100.h5…done原创 2020-12-24 18:42:18 · 1663 阅读 · 5 评论 -
H5文件介绍,存储科学数据的一种文件格式和库文
**H5文件是层次数据格式第5代的版本(Hierarchical Data Format,HDF5),它是用于存储科学数据的一种文件格式和库文件。**接触到这个文件格式也是因为上Coursera深度学习课程的时候,作业用到了。它是由美国超级计算与应用中心研发的文件格式,用以存储和组织大规模数据。目前由非营利组织HDF小组提供支持。目前,很多商业和非商业组织都支持这种文件格式,如Java,MATLAB,Python,R等。 官网网站:https://www.hdfgroup.org/ H5文件在内存原创 2020-12-24 11:20:41 · 982 阅读 · 0 评论 -
【报错】pip,三方包镜像安装,Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None))
pip install tables -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.compip install numpy -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.compip install h5py -i http://mirrors.aliyun.com/pypi/simple/ --truste原创 2020-12-24 18:11:10 · 176 阅读 · 3 评论 -
【报错】ImportError: HDFStore requires PyTables, “No module named ‘tables‘“ problem importing
ImportError: HDFStore requires PyTables, “No module named ‘tables’” problem importing解决办法【win】对该报错解决办法如下:在cmd控制台下执行如下命令:pip install --upgrade tables或pip install tables原创 2020-12-24 17:51:12 · 595 阅读 · 2 评论 -
【整理】Python中如何安装pip? pip 安装与使用,更新
to do原创 2019-03-27 23:34:26 · 161 阅读 · 0 评论 -
如何给Python安装.whl文件
to do原创 2019-03-27 23:35:14 · 281 阅读 · 0 评论 -
No module named pip.__main__; ‘pip‘ is a package and cannot be directly executed
to do原创 2019-03-27 23:34:55 · 578 阅读 · 0 评论 -
Module Pip has no attribute ‘main’
to do原创 2019-03-27 23:36:27 · 136 阅读 · 0 评论 -
离线API文档大全之D_Zeal下载及使用(win10)
下载地址https://zealdocs.org/原创 2020-05-21 15:54:09 · 636 阅读 · 1 评论 -
【早期整理】python库有哪些?通过cmd直接下载(win10)
本人最近完整学了2个数据分析项目(股票分析项目,蒙特卡洛方法求π),其中有涉及到一些数据分析第三方库,现记录一下第三方库的安装过程,po出来也可以供大家参考。1. 需要安装的库:根据我目前做过的项目,我安装了如下7个库:NumpyPandasMatplotlibXlrdFfnSeabornXlrd另外,根据我看的数据分析书籍,数分方面总共可以涉及到52个库,截图如下:2....原创 2018-11-14 19:17:28 · 3400 阅读 · 1 评论 -
有些时候转义路径问题 \x \b
原创 2020-12-18 13:15:21 · 179 阅读 · 0 评论 -
pandas有些时候转义路径问题 \x \b以及为什么加r
r:代表不转义Python 中,没有声明编码方式时,默认ASCI编码。如果要指定编码方式,可在文件顶部声明:-- coding: UTF-8 –-utf-8是一种通用的编码格式,支持许多国家的语言格式,包括中文。这是用来说明你的Python源程序文件用使用的编码。缺省情况下你的程序需要使用ascii码来写,但如果在其中写中文的话,python解释器一般会报错,但如果加上你所用的文件编码,python就会自动处理不再报错。...原创 2020-12-18 13:11:47 · 806 阅读 · 0 评论 -
“还完花呗,再也不用吃土!”是真的吗?
https://mp.weixin.qq.com/s/VtwGl5GSkEb3P-RE8cH4EA转载 2019-03-11 23:50:58 · 482 阅读 · 0 评论 -
没想到你竟然是这样的全职高手 | 从文本挖掘聊起
https://mp.weixin.qq.com/s/y1aRSNQNd0L514jYseCGAQ转载 2019-03-11 23:49:45 · 411 阅读 · 0 评论 -
用微信“验证”了六度区隔假说
https://mp.weixin.qq.com/s/lvIxBH37R6pLKEVnYxlu7g转载 2019-03-11 23:48:24 · 422 阅读 · 0 评论 -
数据下的奥运百年 | Kaggle数据研究
https://mp.weixin.qq.com/s/rPHX41tpOukUit89Gno9SA转载 2019-03-11 23:46:44 · 301 阅读 · 0 评论 -
数据下的奥运百年 | Kaggle数据研究
https://mp.weixin.qq.com/s/rPHX41tpOukUit89Gno9SA转载 2019-03-11 23:46:44 · 336 阅读 · 0 评论 -
量化交易:lecture_code 08
#!/usr/bin/python# -*- coding: utf-8 -*-# portfolio.pyfrom __future__ import print_functionimport datetimefrom math import floortry: import Queue as queueexcept ImportError: import q...原创 2019-02-27 23:41:48 · 440 阅读 · 0 评论 -
数分可视化笔记整理6 - 完整详细版 整理笔记(下)
NumpyNumPy(Numerical Python的简称),是科学计算基础的一个库,提供了大量关于科学计算的相关功能,例如,线性变换,数据统计,随机数生成等。其提供的最核心的类型为多维数组类型(ndarray)。使用方式可以使用如下的方式来安装numpy库:pip install numpy根据惯例,使用numpy库的导入方式为:import numpy as np在导入之后,我...原创 2019-01-27 10:25:51 · 1437 阅读 · 0 评论 -
数分可视化笔记整理7 - plt.pcolormesh()绘制分类图
数据可视化基本概念数据可视化是指借助于图形化的手段,清晰、快捷有效的传达与沟通信息。同时,也可以辅助用户做出相应的判断,更好的去洞悉数据背后的价值。字不如表,表不如图。观察号码的频率,每个号码出现了多少次?文字08 10 15 20 30 31 33 0601 09 10 17 21 28 32 1302 05 08 13 19 21 28 1003 05 07 14 18 23...原创 2019-01-27 00:06:03 · 2889 阅读 · 0 评论 -
数分笔记整理16 - 数据处理综合运用 - 分组与聚合
分组与聚合分组与聚合操作与数据库中的分组与聚合相似。groupby分组我们可以通过groupby方法来对Series或DataFrame对象实现分组操作。该方法会返回一个分组对象:对于Series分组,返回SeriesGroupBy对象。对于DataFrame分组,DataFrameGroupBy对象。迭代如果直接查看(输出)该对象,并不能看到任何的分组信息(这点不同于列表类型)...原创 2019-01-26 23:47:52 · 368 阅读 · 0 评论 -
数分笔记整理15 - 数据处理综合运用 - 多层次索引MultiIndex
MultiIndexMultiIndex,即具有多个层次的索引,有些类似于根据索引进行分组的形式。通过多层次索引,我们就可以使用高层次的索引,来操作整个索引组的数据。创建方式第一种我们在创建Series或DataFrame时,可以通过给index(columns)参数传递多维数组,进而构建多维索引。【数组中每个维度对应位置的元素,组成每个索引值】多维索引的也可以设置名称(names属性)...原创 2019-01-26 23:44:43 · 1859 阅读 · 0 评论 -
数分笔记整理14 - 数据处理综合运用 - 数据合并
数据合并concat我们可以通过DataFrame或Series类型的concat方法,来进行连接操作,连接时,会根据索引进行对齐。axis:指定连接轴,默认为0。join:指定连接方式,默认为外连接。【outer:并集,inner:交集】keys:可以用来区分不同的数据组。join_axes:指定连接结果集中保留的索引。ignore_index:忽略原来连接的索引,创建新的整数序...原创 2019-01-26 23:40:40 · 303 阅读 · 0 评论 -
数分笔记整理13 - 数据处理综合运用 - 数据过滤 & 数据转换
数据过滤可以使用布尔数组或者索引数组的方式来过滤数据。另外,也可以用DataFrame类的query方法来进行数据过滤。在query方法中也可以使用外面定义的变量,需要在变量前加上@。# 数据过滤第一种方式:通过布尔数组进行过滤。# new_data = data[data[3] >= 200]# 第二种方式:通过query方法进行过滤。该方法指定过滤条件,类似于数据库查询指定的w...原创 2019-01-26 23:35:45 · 370 阅读 · 0 评论 -
数分笔记整理12 - 数据处理综合运用 - 数据清洗
数据清洗我们需要对数据进行一些预处理操作,才能用到后续的数据分析与机器学习中。这是因为,无论数据的来源为何处,我们都不可能保证数据一定是准确无误的。数据清洗可以包含以下几方面内容:处理缺失值处理异常值处理重复值缺失值处理发现缺失值Pandas中,会将float类型的nan与None视为缺失值,我们可以通过如下方法来检测缺失值:infoisnullnotnull说明:...原创 2019-01-26 23:31:21 · 621 阅读 · 0 评论 -
数分笔记整理11 - 数据处理综合运用 - 数据加载
数据处理数据加载首先,我们需要将收集的数据加载到内存中,才能进行进一步的操作。pandas提供了非常多的读取数据的函数,分别应用在各种数据源环境中,我们常用的函数为:read_csvread_tableread_sql说明:read_csv与read_table默认使用的分隔符不同。常用参数read_csv与read_table常用的参数:sep / delimite...原创 2019-01-26 23:25:50 · 302 阅读 · 0 评论 -
数分笔记整理10 - Pandas DataFrame类型的对象 - 运算,排序,索引对象及统计相关方法
DataFrame结构DataFrame的一行或一列,都是Series类型的对象。对于行来说,Series对象的name属性值就是行索引名称,其内部元素的值,就是对应的列索引名称。对于列来说,Series对象的name属性值就是列索引名称,其内部元素的值,就是对应的行索引名称。df = pd.DataFrame(np.random.randint(100, 200,size=(4, 3)), ...原创 2019-01-26 23:13:20 · 856 阅读 · 0 评论 -
数分可视化笔记整理5 - 完整详细版 整理笔记(上)
本文主要介绍如何利用plt.pcolormesh来绘制如下的分类图plt.pcolormesh的作用在于能够直观表现出分类边界。如果只是单纯的绘制散点图,效果如下:那么我们就看不出分类的边界。下面将以鸢尾花数据集为例说明如何使用plt.pcolormesh,该数据集一共包含3类鸢尾花的数据首先引入必要的库import numpy as npimport panda...原创 2019-01-21 13:27:28 · 631 阅读 · 0 评论 -
数分笔记整理1 - 机器学习分析工具简介(七大库)
关于执行机器学习任务的开源科学python库,我比较熟的有numpy, matplotlib, pandas, 较熟的是scikitlearn,看过相关的相关书籍,探索一下其他的科学python库。python有一些常用于执行数据处理和机器学习的开源软件库。有很多的**科学Python库(Scientific Python Libraries)**可用于执行基本的机器学习任务,如Numpy、Pa...原创 2019-01-20 12:46:38 · 860 阅读 · 0 评论 -
数分笔记整理9 - Pandas DataFrame类型的对象 - 相关操作
DataFrame相关操作假设df为DataFrame类型的对象。列操作获取列【哪个更好些?】df[列索引]df.列索引增加(修改)列:df[列索引] = 列数据删除列del df[列索引]df.pop(列索引)df.drop(列索引或数组)行操作获取行df.loc 根据标签进行索引。df.iloc 根据位置进行索引。df.ix 混合索引。先根据...原创 2019-01-15 21:45:51 · 614 阅读 · 0 评论 -
数分笔记整理8 - Pandas DataFrame类型的对象 - 相关属性
相关属性indexcolumnsvaluesshapendimdtypes说明:可以通过index访问行索引,columns访问列索引,values访问数据,其中index与columns也可以进行设置(修改)。可以为DataFrame的index与columns属性指定name属性值。DataFrame的数据不能超过二维。# df = pd.DataFrame([[...原创 2019-01-15 21:41:23 · 2185 阅读 · 0 评论 -
数分笔记整理7 - Pandas Pandas - DataFrame类型的对象 - 创建方式
DataFrame类型DataFrame是一个多维数据类型。因为通常使用二维数据,因此,我们可以将DataFrame理解成类似excel的表格型数据,由多列组成,每个列的类型可以不同。因为DataFrame是多维数据类型,因此,DataFrame既有行索引,也有列索引。一. 创建方式我们可以使用如下的方式创建(初始化)DataFrame类型的对象(常用):二维数组结构(列表,ndarr...原创 2019-01-15 21:31:03 · 1780 阅读 · 0 评论 -
数分笔记整理6 - Pandas Series 类型的对象 - 索引,切片和CRUD操作
一. 索引详解标签索引与位置索引如果Series对象的index值为非数值类型,通过[索引]访问元素,索引既可以是标签索引,也可以是位置索引。这会在一定程度上造成混淆。我们可以通过:loc 仅通过标签索引访问。iloc 仅通过位置索引访问。这样,就可以更加具有针对性去访问元素。整数数组索引与布尔数组索引Series也支持使用整数数组与布尔数组进行索引。与Numpy数组相同,二者返...原创 2019-01-14 22:13:39 · 1308 阅读 · 0 评论 -
数分笔记整理5 - Pandas Series 类型的对象 - 相关操作
Series相关操作Series在操作上,与Numpy数据具有如下的相似性:支持广播与矢量化运算。支持索引与切片。支持整数数组与布尔数组提取元素。运算Series类型也支持矢量化运算与广播操作。计算规则与Numpy数组的规则相同。同时,Numpy的一些函数,也适用于Series类型,例如,np.mean,np.sum等。多个Series运算时,会根据索引进行对齐。当索引无法匹配时...原创 2019-01-14 21:36:00 · 568 阅读 · 0 评论 -
数分笔记整理4 - Pandas Series 类型的对象 - 相关属性
一. 相关属性indexvaluesshapesizedtypenamehead tailSeries对象可以通过index与values访问索引与值。其中,我们也可以通过修改index属性来修改Series的索引。说明:如果没有指定索引,则会自动生成从0开始的整数值索引,也可以使用index显式指定索引。Series对象与index具有name属性。Series的na...原创 2019-01-14 21:24:43 · 2424 阅读 · 1 评论 -
数分笔记整理3 - Pandas Series 类型的对象 - 创建方式
Series类型Series类型类似于Numpy的一维数组对象,可以将该类型看做是一组数据与数据相关的标签(索引)联合而构成(带有标签的一维数组对象)。创建方式Series常用的创建(初始化)方式:列表等可迭代对象ndarray数组对象字典对象标量Series类型类似字典键值对Series类型可以看做ndarray类型配了标签。1. 通过 列表等可迭代对象 创建Serie...原创 2019-01-14 20:52:20 · 1677 阅读 · 0 评论 -
数分可视化笔记整理4 - 2017年内地电影和票房数据情况(条形图)
需求:绘制2017年内地电影票房前20的电影和票房数据情况条形图另外,单拎出4部电影,每部电影3天的票房数据, 展示电影本身的票房以及同其他电影的数据对比情况难点:条形图语法x轴坐标的宽度值如何选取# 假设你获取到了2017年内地电影票房前20的电影(列表a)和电影票房数据(列表b),那么如何更加直观的展示该数据?import matplotlib.pyplot as pl...原创 2018-11-19 13:54:24 · 3293 阅读 · 0 评论 -
数分可视化笔记整理3 - 北京2016年3,10月份每天白天的最高气温随时间变化情况
需求:绘制北京2016年3,10月份每天白天的最高气温随时间(天)变化的散点图,并找出规律难点:散点图语法绘制两边分布式x轴坐标# 数据来源:天气网 http://lishi.tianqi.com/beijing/index.htmlimport matplotlib.pyplot as plt# 3月份和10月份每天白天气温情况a = [11,17,16,11,12...原创 2018-11-19 00:30:53 · 688 阅读 · 0 评论