python_褚骏逸的博客-CSDN博客

python

关注

文章平均质量分 62

关注数：文章数：30 文章阅读量：93246 文章收藏量：378

作者: 褚骏逸

这个作者很懒，什么都没留下…

展开

【matplotlib复杂的频数分布直方图】多子图，共享横纵坐标名，横坐标位置居中及标签显示，显示每个bar的频数

hist的官方文档，下面的例子值得学习在一个图上画三个数据集下述图的问题：都不咋好看由于第二个length太高了，导致其他的length区分度不大了不同数据集有些length重合了……横坐标的位置和bar不匹配方法1fig, ax = plt.subplots(nrows = 1, ncols = 1)colors = ['red', 'green', 'orange']ax.hist(train_length, n_bins, color = 'red')ax.hist(

原创 2021-05-03 11:07:52 · 1519 阅读 · 2 评论
【matplotlib复杂热图绘制】自定义元素注释，对数渐变色标，不显示色标，去掉留白，LZW压缩

我的最终图形式元素注释为该元素的name+value无color bar颜色分明创建带注释的热图function详见官方文档，下面是我自己的图，修改了官方例子。def heatmap(data, ax=None, cbar_kw={}, cbarlabel = "", **kwargs): """ Create a heatmap from a numpy array and two lists of labels. Parameters --------

原创 2021-05-03 02:16:57 · 831 阅读 · 4 评论
【Linux CentOS系统】Matplotlib不显示Times New Roman

CentOS系统是没有Times New Roman字体的。（其他字体类似操作）步骤把本地电脑里C:\windows\fonts中的Time New Roman文件夹/4个文件拷贝到CentOS系统中的/usr/share/fonts目录下。（我不确定是把整个文件夹拷过来，还是把4个文件直接放进去，我都试了一下，不知道是哪个成功的。）执行下面三条命令刷新字体缓存mkfontscalemkfontdirfc-cache -fv可以执行“fc-list”来查看安装了那些字体（看每一个小段

原创 2021-05-02 08:00:27 · 1612 阅读 · 0 评论
keras搭建二分类神经网络代码：不平衡，AUC和AUPR，画图

代码定义性能评估指标def performances(y_true, y_pred, y_prob): tn, fp, fn, tp = confusion_matrix(y_true, y_pred, labels = [0, 1]).ravel().tolist() accuracy = (tp+tn)/(tn+fp+fn+tp) try: recall = tp / (tp+fn) except: recall = 0

原创 2021-02-01 21:55:38 · 2728 阅读 · 1 评论
linux下用psiblast批量生成pssm矩阵

目录在linux上安装psiblast下载并编译用于比对的大型蛋白质数据库生成pssm批量生成方法文章中看到的手动生成pssm的方法在linux上安装psiblast最好新建一个python环境，因为我发现conda安装blast默认的是python==3.6.11，可能会不小心把你的python版本改掉…然后你写好的代码全die了……conda create -n blast python==3.6.11source activate blastconda install -c bioconda

原创 2021-01-28 22:06:15 · 2847 阅读 · 5 评论
关于CompileError: command ‘gcc‘ failed with exit status 1解决：gcc g++版本

http://c.biancheng.net/view/7933.htmlhttps://blog.csdn.net/mou_it/article/details/79842193报错：ImportError: Building module norm_aggr failed: [“distutils.errors.CompileError: command ‘gcc’ failed with exit status 1\n”]注意：看上面#include查看gcc和g++版本是否一致，查看c

原创 2020-10-07 15:02:43 · 5685 阅读 · 1 评论
图数据处理：当每个user包含多个样本时，将其视为不同的样本，为每个sample赋予一个id，并更新边关系

文章目录1. 原始数据2. 数据处理思路2.1. 步1和步22.2. 步32.3. 步42.4. 步51. 原始数据node_data：节点数据，其中node_data[‘vroleid’]列为用户id，其他列包括node label和node feature。同一个用户id可能有多条样本，如果直接去重则会造成数据损失，随之带来的正负样本不平衡问题会进一步导致其与真是数据分布不符。** edge_data：** 节点关系数据，edge_data[‘vroleid’]和edge_data[‘frie

原创 2020-08-20 11:29:23 · 325 阅读 · 0 评论
GraphSAINT和基于源码的pytorch实现（从数据处理到训练）

目录1.论文资料2.传统GNN挑战：邻居爆炸（Neighbor Explosion）3.现有方法：图采样4.GraphSAINT：截然不同的采样的视角4.1.算法流程4.2.子图采样4.3.实验结果：优于GCN, SAGE...参考文献1.论文资料作者：曾涵清博士，南加州大学论文：在 ICLR 2020 上发表了GraphSAINT: Graph Sampling Based Inductive Learning Method代码：https://github.com/GraphSAINT/Grap

原创 2020-08-06 20:54:04 · 3429 阅读 · 5 评论
Cluster-GCN：子图划分，特别适合大规模的同质图数据

1. Cluster-GCN聚类GCN：一种对大而深的图卷积网络训练的高效算法发表时间： 2019年8月4日发表在KDD 2019上。1.1.参考资料论文链接：Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional NetworksGitHub链接：ClusterGCN: A PyTorch implementationDGL链接：DGLexamples1.2.GCN面临的挑战：大规

原创 2020-08-04 21:13:53 · 5475 阅读 · 3 评论
图网络：从数据处理到DGL模型构建（GCN, GraphSAGE, RGCN）

DGL异构图教程：https://docs.dgl.ai/tutorials/hetero/1_basics.htmlDGL v0.4 更新笔记：https://github.com/dmlc/dgl/releasesDGL-KE代码及使用说明：训练知识图谱嵌入（Knowledge Graph Embedding）专用包https://github.com/dmlc/dgl/tree/master/apps/kgDGL-Chem 模型库: 包括分子性质预测和分子结构生成等预训练模型。https

原创 2020-08-03 19:59:00 · 8309 阅读 · 9 评论
【自监督算法】自编码器（autoencoder, AE）

十分建议先读keras文档看完之后感觉好像普通的自编码器好像没啥用啊？使用自编码器做数据压缩，性能并不怎么样…… 做逐层预训练训练深度网络吧，现在好的初始化策略、Batch Normalization、残差连接啥的都很有效了…… 那自编码器岂不是只有数据去噪、为进行可视化而降维这两个可应用的点了！配合适当的维度和稀疏约束，自编码器可以学习到比PCA等技术更有意思的数据投影。当然了，变分自编码器用于生成模型还是挺好的！1.简介自编码器是一类在半监督学习和非监督学习中使用的人工神经网络。.

原创 2020-05-30 16:18:25 · 6792 阅读 · 0 评论
购物篮分析（Apriori算法）：Mlxtend实现

目录1.基础概念2.购物篮分析：指标用法3.规则生成基本流程3.1.找出频繁项集3.2.找出上步中频繁项集的规则4.Python实现：mlxtend参考1.基础概念项集：购物篮也称为事务数据集,它包含属于同一个项集的项集合。在一篮子商品中的一件消费品即为一项(Item)，则若干项的集合为项集(items)，如{啤酒，尿布}构成一个二元项集。关联规则： X为先决条件，Y为相应的关联结果,用于表示数据内隐含的关联性。如：尿布−>啤酒[支持度=8%，置信度=80%]尿布->啤酒[支持度=8\

原创 2020-05-29 18:56:08 · 5280 阅读 · 0 评论
【NLP面试】简述RNN、LSTM、NLP

目录1.RNN：处理序列数据1.1.为什么需要RNN？1.2.基本原理1.3.缺点1.3.1.短期记忆、训练成本大1.3.2.梯度消失/爆炸1.4.LSTM：RNN的优化算法1.4.1.与RNN相比1.4.2.核心步骤（前向计算过程）1.4.3.反向传播算法BPTT1.4.4.python实现1.4.5.LSTM变体1.4.5.1.在门上增加窥视孔1.4.5.2.整合遗忘门和输入门1.5.GRU：LSTM 的变体1.6.应用3.【科普】NLP3.1.核心任务3.1.1.自然语言理解 – NLU | NLI3

原创 2020-05-25 13:37:46 · 583 阅读 · 0 评论
特征工程的方法和步骤

目录0.示意图1.特征类别1.1.类别特征1.2.数值特征1.3.时间特征1.4.空间特征1.5.自然语言处理1.6.深度学习/神经网络1.7.图特征1.7.Leakage1.8.统计聚合1.9.自动化特征工程2.数据预处理2.1.无量纲化方法2.2.归一化2.3.定性特征One-hot/哑编码2.4.定量特征二值化2.5.缺失值填充2.6.数据变换3.特征选择3.1.Filter过滤法3.1.1.方差选择法3.1.2.相关系数法3.1.3.卡方检验3.1.4.互信息法3.2.Wrapper包装法3.2.1

原创 2020-05-24 15:11:54 · 3351 阅读 · 0 评论
排序算法（动图演示、python代码）

冒泡排序（Bubble Sort）冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列，一次比较两个元素，如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。算法步骤比较相邻的元素。如果第一个比第二个大，就交换他们两个。对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。针对所有的元素重复以上的步骤，除了最后一个。持续每

转载 2020-05-21 20:07:44 · 261 阅读 · 0 评论
【有监督分类】k-NearestNeighbor (kNN)

KNN算法思路 kNN是通过测量不同样本之间的距离进行分类，认为样本可以最接近它的k个邻居来代表。思路：如果一个样本在特征空间中的k个邻居样本中的大多数属于某一个类别，则该样本也属于这个类别，通常k⩽20k\leqslant20k⩽20 。kNN算法中，所选择的邻居都是已经正确分类的对象。算法过程：Input：Xtrain，Ytrain，XtestInput：X_{train}，Y_{train}，X_{test}Input：Xtrain，Ytrain，XtestOutput:Ytes

原创 2020-05-20 17:11:40 · 390 阅读 · 0 评论
用python群发邮件（显示图片+图片附件）

目录先获取邮箱授权码函数部分运行部分先获取邮箱授权码QQ邮箱授权码获取方式其他的百度搜啦~函数部分import smtplibimport os.pathimport mimetypesfrom email.mime.text import MIMETextfrom email.mime.base import MIMEBasefrom email.mime.image import MIMEImagefrom email.mime.multipart import MIMEMulti

原创 2020-05-09 22:18:52 · 819 阅读 · 0 评论
python导入自己写的模块

首先，将自己写的模块保存为.py文件。路径：E:\6_module_py\文件名：c2d2model2.py方法一：代码中增加如下三行：import syssys.path.append('/data/dqw_cjy/6_module_py')import c2d2model2方法二：使用notepad++写入.py文件的路径，并保存为.pth类型，放入到Anac...

原创 2018-11-07 13:27:54 · 13233 阅读 · 9 评论
ECFP的实现：deepchem

一.源码结构：class CircularFingerprint(Featurizer): def __init__(self, radius=2, size=2048, chiral=False, bonds=True, features=False, sparse=False, smiles=False): def _featurize(self, m...

原创 2018-11-05 11:54:57 · 3343 阅读 · 0 评论
scikit-learn中GridSearchCV的使用：多模型，可视化

步骤：1.选择并构建训练模型model2.将训练模型model投入到GridSearchCV中，得到GridSearchCV模型grid_model3.用grid_model拟合训练集数据，选择在validation_dataset上效果最好的参数的模型best_estimator4.1.用best_estimator拟合训练集（得到的结果应该与之前不同，因为之前用交叉验证等方法对...

原创 2018-11-08 14:50:11 · 10839 阅读 · 1 评论
scikit-learn中GridSearchCV的使用：Keras接口

首先请先理解GridSearchCV在scikit-learn中的使用，可见博文：scikit-learn中GridSearchCV的使用：多模型，可视化，该博文中有的子函数，本文不再赘述。【环境搭建】 import tensorflow,kerasfrom keras.models import Sequentialfrom keras.layers import Densefr...

原创 2018-11-08 15:16:28 · 1292 阅读 · 0 评论
对y_pred强制二分类

在使用Keras做0/1二分类问题时，采用sigmoid作为输出层的激活函数。但是结果中并非0和1，而是介于(0,1)之间的小数。找了其他的激活函数，发现没有合适的。所以直接强制二分类吧。y_test_pred = fit.predict(x_test)y_test_pred_binary = []for item in y_test_pred: if item <= ...

原创 2018-11-08 15:27:06 · 3327 阅读 · 3 评论
【jupyter】转换环境（多python）

ipython官方文档对于Installing the IPython kernel的方法描述。亲测有效。注意，在原来的环境下的包需要重新安装在所需环境下。C:\Users\dell\Anaconda3\envs\ipykernel_py2\Lib\site-packages ...

原创 2018-11-21 08:45:26 · 320 阅读 · 0 评论
【gcforest】源代码修改

gcForest/lib/gcforest/utils/win_utils.py1.源代码如下：nh = (h - win_y) / stride_y + 1nw = (w - win_x) / stride_x + 1修改方法：把x和y互换2.源代码如下：src = X[:, k, di:di+nh*stride_y:stride_y, dj:dj+nw*stride_...

原创 2019-07-31 20:35:12 · 354 阅读 · 0 评论
【gcForest源码解读】win_utils.py

一.序列数据样本\序列 1 2 3 4 5 6 7 8 9 10 11 Sample_1 A ...

原创 2019-07-31 20:34:56 · 247 阅读 · 2 评论
【xgboost】安装

使用了各种方法，也没安装成功，每次import xgboost都会报错。未成功方法：1. anaconda show -t conda xgboost #选择一个win64的进行安装2. git clone https://github.com/dmlc/xgboost.git 下载最新版的dll文件，存入xgboost目录http://www.picnet.com.au/b...

原创 2018-11-18 15:53:47 · 183 阅读 · 0 评论
【gcForest】安装；【Git】安装；【安装依赖】

官方提示：该软件包是在python 2.7中开发的，当前版本不建议使用更高版本的python。But：我用的python3.5，可以正常运行哦~1.安装git2.git clone https://****.git 3.git clone到本地的代码在运行目录下C:\Users\dell，将C:\Users\dell\gcForest\lib\gcforest复制到C:\Use...

原创 2018-11-18 12:24:41 · 1914 阅读 · 2 评论
json文件的编辑

ValueError: No JSON object could be decoded示例：一段json代码（1）Ctrl+A复制全部文本（2）如果不需要进行修改，可直接在notepad++中保存为json文件。如果需要修改，保存后，可能在跑代码的时候发生json文件无法识别的情况。方法：（1）直接在【记事本】中修改（还没试，不知道可行性），然后保存为json文件。（2）使...

原创 2018-11-26 21:35:55 · 6916 阅读 · 0 评论
在本地运行linux/server上的jupyter-notebook

参考英文版教程环境：默认您的服务器已经安装好了anaconda31. 在服务器中进入anaconda环境，输入jupyter-notebook注意圈红部分，一个是用户名@服务器地址，一个是Jupyter-Notebook在本地运行的网址。注意：在此步骤，可能出现（1）没有token，（2）有看不懂的密码“sha：&*……&……%” 等情况。此时，...

原创 2019-03-25 10:39:36 · 683 阅读 · 0 评论
豆瓣爬虫：模拟登录（可直接在cmd执行）

【本代码可直接顺序复制粘贴，并用cmd运行。注意：https不要写成http】先查看一下登录所需的信息。登录页面https://accounts.douban.com/login按[F12]打开网页源代码 - 按[F8]寻找redir - 可将redir的value值设为你想跳转的页面。我设为http://movie.douban.com/mine?status=collect，跳转到...

原创 2018-10-31 10:22:50 · 374 阅读 · 0 评论

python

作者: 褚骏逸

【matplotlib复杂的频数分布直方图】多子图，共享横纵坐标名，横坐标位置居中及标签显示，显示每个bar的频数

【matplotlib复杂热图绘制】自定义元素注释，对数渐变色标，不显示色标，去掉留白，LZW压缩

【Linux CentOS系统】Matplotlib不显示Times New Roman

keras搭建二分类神经网络代码：不平衡，AUC和AUPR，画图

linux下用psiblast批量生成pssm矩阵

关于CompileError: command ‘gcc‘ failed with exit status 1解决：gcc g++版本

图数据处理：当每个user包含多个样本时，将其视为不同的样本，为每个sample赋予一个id，并更新边关系

GraphSAINT和基于源码的pytorch实现（从数据处理到训练）

Cluster-GCN：子图划分，特别适合大规模的同质图数据

图网络：从数据处理到DGL模型构建（GCN, GraphSAGE, RGCN）

【自监督算法】自编码器（autoencoder, AE）

购物篮分析（Apriori算法）：Mlxtend实现

【NLP面试】简述RNN、LSTM、NLP

特征工程的方法和步骤

排序算法（动图演示、python代码）

【有监督分类】k-NearestNeighbor (kNN)

用python群发邮件（显示图片+图片附件）

python导入自己写的模块

ECFP的实现：deepchem

scikit-learn中GridSearchCV的使用：多模型，可视化

scikit-learn中GridSearchCV的使用：Keras接口

对y_pred强制二分类

【jupyter】转换环境（多python）

【gcforest】源代码修改

【gcForest源码解读】win_utils.py

【xgboost】安装

【gcForest】安装；【Git】安装；【安装依赖】

json文件的编辑

在本地运行linux/server上的jupyter-notebook

豆瓣爬虫：模拟登录（可直接在cmd执行）