PIPIXIU
码龄8年
关注
提问 私信
  • 博客:233,369
    问答:1,855
    235,224
    总访问量
  • 43
    原创
  • 1,600,113
    排名
  • 67
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:香港
  • 加入CSDN时间: 2016-09-21
博客简介:

PIPIXIU的博客

查看详细资料
个人成就
  • 获得131次点赞
  • 内容获得92次评论
  • 获得491次收藏
  • 代码片获得632次分享
创作历程
  • 2篇
    2019年
  • 13篇
    2018年
  • 5篇
    2017年
  • 23篇
    2016年
成就勋章
TA的专栏
  • c++primer5
    15篇
  • c++自己总结
    3篇
  • C++Pimer读后
    1篇
  • 算法第四版
    2篇
  • FPGA
    1篇
  • 机器学习
    16篇
  • python爬虫
    2篇
  • 可视化
    2篇
  • pyecharts
    1篇
  • pandas
    1篇
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

使用python graphviz绘制神经网络结构

代码def link_edges(d, starts, ends): for i_idx,i in enumerate(starts): for j_idx,j in enumerate(ends): if i_idx==j_idx:#print(i,j) d.edge(i, j,taillabel='0.24',f...
原创
发布博客 2019.12.15 ·
1097 阅读 ·
2 点赞 ·
1 评论 ·
4 收藏

eplot,在pandas中流畅的使用pyecharts!

文章目录1 eplot1.1 eplot简介1.2 eplot原理2 图标示例2.1 折线图2.2 柱状图2.3 直方图2.4 散点图(二维,三维,分类散点图)2.5 饼图2.6 玫瑰图2.7 计数图2.8 箱线图1 eplot1.1 eplot简介eplot 是pyecharts库对pandas的一个接口,通过给DataFrame及Series类添加方法,直接使用DataFrame对象添加...
原创
发布博客 2019.01.13 ·
8149 阅读 ·
3 点赞 ·
3 评论 ·
33 收藏

决策树中的熵、条件熵、信息增益和Gini指数计算示例

文章目录信息熵条件熵信息增益公式计算Gini指数计算示例信息首先我们从什么是信息来着手分析:I(X=xi)=−log2p(xi)I_{(X = x_i)} = -log_2p(x_i)I(X=xi​)​=−log2​p(xi​)I(x)I(x)I(x)用来表示随机变量的信息,p(xi)p(x_i)p(xi​)指是当xixixi发生时的概率。熵在信息论和概率论中熵是对随机变量不确定性的度...
原创
发布博客 2018.10.09 ·
13477 阅读 ·
15 点赞 ·
11 评论 ·
68 收藏

lightgbm的原生版本与sklearn 接口版本对比

与xgboost一样,lightgbm也是使用C++实现,然后给python提高了接口,这里也分为了lightgbm naive API,以及为了和机器学习最常用的库sklearn一致而提供的sklearn wrapper。 然而naive版的lgb与sklearn接口还是存在一些差异的,我们可以通过以下简单测试对比:1. 准备数据首先使用sklean的make_classifica...
原创
发布博客 2018.09.14 ·
13674 阅读 ·
7 点赞 ·
0 评论 ·
33 收藏

sklearn里的learning_curve为何会如此占用内存

答:

是不是数据问题,拿sklearn自带数据集测试一下

回答问题 2018.08.09

python zip的高阶应用

1. zip的基本应用1.1 合并两个列表1.2 将两个列表合成字典1.3 嵌套列表怎么办?2. 使用zip(*)解包,矩阵转置2.1 矩阵转置2.2 矩阵点乘3. zip的高阶应用3.1 合并列表中相邻的n项zip() 函数主要用于对可迭代的对象的打包与解包操作。将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。如果各个迭代器的元...
原创
发布博客 2018.07.29 ·
1815 阅读 ·
6 点赞 ·
3 评论 ·
17 收藏

python爬取长春长生2016-2018所有被批准疫苗批次

1. 导入库2. 获取每张表格所在的URL3. 从URL读取公示数据3.1 获取表格3.2 筛选长生公司的产品4. 数据分析本文使用Python爬取了中国食品药品检定研究院2016年1月-2018年7月24日批准公式的所有长春长生生产的疫苗。 长春长生疫苗问题牵动广大民众,然而有的疫苗接种本上只有疫苗批次,却不显示具体哪家企业生产的。本文通过爬取中国食品药品检定研究院...
原创
发布博客 2018.07.25 ·
2176 阅读 ·
2 点赞 ·
2 评论 ·
1 收藏

基于keras的seq2seq中英文翻译实现

1. seq2seq概述1.1 seq2seq简介seq2seq,全称Sequence to sequence,是RNN结构的一个变形,来自于Cho 在 2014 年提出的 Encoder–Decoder 结构,https://arxiv.org/pdf/1406.1078.pdf。 传统的RNN输入和输出长度要一致,而seq2seq在RNN的基础上进行改进,实现了变长序列的输入和输...
原创
发布博客 2018.07.13 ·
13090 阅读 ·
15 点赞 ·
11 评论 ·
86 收藏

图解LSTM

LSTM概述RNN给神经网络加入了处理时间的能力,而传统的RNN会面临梯度消失(爆炸)的问题RNN vs LSTM: Vanishing Gradients,传递的时间信息也会越来越弱。给RNN引入长时记忆至关重要。因此有了Long Short Term Memory(LSTM)。 常见的LSTM结构如下图所示: xtxtx_t为每个时间步的输入数据,hthth_t为每个时间步的输...
原创
发布博客 2018.07.12 ·
4850 阅读 ·
1 点赞 ·
2 评论 ·
23 收藏

基于keras的LSTM时间序列预测

简介针对时间序列预测问题传统方法如ARIMA算法来拟合序列,综合考虑趋势、循环、季节等因素。 随着深度学习的飞速发展,基于RNN的方法在时间序列中的应用越来越广泛。 本文使用air passenger航空公司乘客数据集,来测试LSTM在时间序列中的预测:问题这里我们使用前n个月的乘客量来预测下一个月的乘客量数据分析航空公司乘客数据集为1949年1月到1960年12月...
原创
发布博客 2018.07.11 ·
19507 阅读 ·
9 点赞 ·
27 评论 ·
119 收藏

【提问】请教python调用sklearn完成特征工程问题

答:

筛选后的列名可以获取到的啊

  sel.get_support()

会返回一个布尔数组(array([ True, False, False, True])),
再通过下面的代码就把列名去除来了啊

 cols = [b_model_dropnan_independentvariable.columns.values[i] for i,j in enumerate(sel.get_support()) if j]
回答问题 2018.07.09

xgboost的原生版本与sklearn 接口版本对比

xgboost的python版本有原生版本和为了与sklearn相适应的sklearn接口版本 原生版本更灵活,而sklearn版本能够使用sklearn的Gridsearch,二者互有优缺,现使用sklearn自带的boston数据集做简单对比如下:准备数据#导入包from sklearn import datasetsimport pandas as pdimport xgbo...
原创
发布博客 2018.05.26 ·
7391 阅读 ·
6 点赞 ·
1 评论 ·
24 收藏

在pandas多重索引multiIndex中选定指定索引的行

在multiIndex中选定指定索引的行我们在用pandas类似groupby来使用多重index时,有时想要对多个level中的某个index对应的行进行操作,就需要在dataframe中找到该index对应的行,在单层index中我们可以方便的使用df.loc[index]来选择,在多重Index中我们可以利用的类似的思路,然而其中也有一些小坑,记录如下。index为有序的创建...
原创
发布博客 2018.05.07 ·
52541 阅读 ·
24 点赞 ·
8 评论 ·
88 收藏

微信实时提醒python程序状态

背景1. 在用python做特征提取或者构建模型时数据量大的话会消耗很多时间,每次都要过一会儿去看一下代码是否跑完,很不方便。 2. 最近在试用了python的第三方微信库itchat分析了自己微信的一些数据后,思路我们时刻都带着手机,可以用微信的震动来提醒我们代码的状态,甚至实现交互和远程控制、传参等。步骤1. 在python程序里导入itchat库2. it...
原创
发布博客 2018.02.08 ·
3974 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

pandas快速定位某一列中存在某值的所有行,loc, at, ==对比

goodDiskName2016from datetime import datetimefrom time import time直接方括号定位相等的列start = time()for disk in goodDiskName2016[:100]:  ____ST4000DM000_2016_good_feature27[ST4000DM000_2016_g
原创
发布博客 2018.01.24 ·
15531 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

如何画XGBoost里面的决策树

xgboost画图时遇到如下若干坑图像过小,看不清内容只显示特征编号,不显示特征名怎么把图像保存解决方法:plot_tree画图在使用xgboost训练出模型xgbClf后:import xgboost as xgbfrom xgboost.sklearn import XGBClassifierxgbClf = XGBClassifier()xgbClf.fit(xTrain,yTr
原创
发布博客 2018.01.14 ·
14496 阅读 ·
10 点赞 ·
11 评论 ·
57 收藏

sklearn中预处理StandardScaled分析

StandardScaled处理后数据具有零均值以及标准方差: 等效于:df = pd.DataFrame([1,2,3])def std(x): v = x.var() v = v*(x.size-1)/x.size m = x.mean() return (x-m)/np.sqrt(v)df.apply(std)注意: pandas中的var函数为无
原创
发布博客 2018.01.11 ·
656 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Linux下安装xgboost,解决jupyter无法import问题

安装环境: Ubuntu 17.04Ubuntu下装Git: sudo apt-get install git从xgboost官方github处clone文件包git clone --recursive https://github.com/dmlc/xgboost用make编译下载下来的文件#进入xgboost目录cd xgboost#makemake -j4安装xgboost
原创
发布博客 2017.11.24 ·
3786 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

TypeError: unhashable type: 'matrix'解决方法

《机器学习实战》第九章“树回归”P164的程序清单9-2出现这个错误,经过多方测试,最终解决。首先在p163的测试中就出了错误,发现返回的mat1只有一行,通过调试发现def binSplitDataSet(dataSet, feature, value): mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:][0] m
原创
发布博客 2017.09.28 ·
5364 阅读 ·
11 点赞 ·
2 评论 ·
2 收藏

matplotlib坐标轴中文乱码问题解决

用了一晚上时间一直在搞这个问题,网上解决方法众多,没有一个实用的,最后终于解决了。 系统: win10 环境: VS Code1.16 python 2.7.13方法找到matplotlib的配置文件位置 import matplotlib print(matplotlib.matplotlib_fname())#我这里的位置是C:\Python27\lib\sit
原创
发布博客 2017.09.13 ·
6595 阅读 ·
2 点赞 ·
3 评论 ·
4 收藏
加载更多