python
文章平均质量分 54
weixin_37763484
数据挖掘 图像\文本\结构化数据处理
展开
-
mhtml图片提取 百度图片下载
一键提取百度图片 提取网页中的图像 提取mhtml中的图像原创 2024-09-06 19:54:26 · 535 阅读 · 0 评论 -
python 图像去噪
python 图像去噪 模糊图像处理原创 2024-08-30 12:57:12 · 360 阅读 · 0 评论 -
图像指定区域 添加马赛克
给图片添加马赛克,根据马赛克的区域自动调整模糊度。原创 2024-08-26 11:16:15 · 216 阅读 · 0 评论 -
图像光照特效
图像增强,为图像增加光照效果。原创 2024-08-19 18:12:24 · 347 阅读 · 0 评论 -
python 阴暗图像 亮度增强 对比度增强 去雾
图像亮度增强、对比度增强,减轻阴暗图像对模型的干扰。原创 2024-08-19 15:06:20 · 735 阅读 · 0 评论 -
改变图像中特定区域的颜色
改变图片中特定区域的颜色原创 2024-07-03 00:39:29 · 178 阅读 · 0 评论 -
图像增强 目标检测 仿射变换 图像处理 扭曲图像
目标检测中,进行数据增强。对图像进行仿射变换,同时保留标注框的信息。原创 2024-07-03 00:12:21 · 924 阅读 · 1 评论 -
利用PaddleNLP进行文本数据脱敏
敏感信息脱敏,借助paddlenlp工具,完成姓名、地名、金额、时间等信息的处理,保障数据安全。处理结果可读性高,指代关系明确,可以做到脱敏而不影响信息传递。原创 2024-02-19 19:34:26 · 1009 阅读 · 1 评论 -
python 循环解压 解压多重压缩包
python 解压压缩包 解压多重压缩包 解压嵌套压缩包原创 2024-01-29 22:38:44 · 840 阅读 · 4 评论 -
python 去除图像中的框
需要图像中的人为画框,保证图像的质量。原创 2023-11-06 21:48:27 · 1035 阅读 · 4 评论 -
EM算法 高斯混合模型 方差估计
EM算法 简明理解 高斯混合模型 方差估计原创 2023-02-24 17:40:49 · 548 阅读 · 0 评论 -
MDL(最小描述长度)标签选择 用户标签 用户画像
标签选择 用户画像 推荐系统原创 2023-02-27 16:41:21 · 428 阅读 · 0 评论 -
数据可视化 数据分析 常用图 seaborn
数据分析阶段常用的统计图,验证数据分布,发现数据之间的关系,进行异常值检测。原创 2022-12-13 11:12:56 · 580 阅读 · 0 评论 -
Titanic 泰坦尼克数据集 特征工程 机器学习建模
泰坦尼克数据集分析、建模过程,整体比较完整,分享出来,希望能帮助大家原创 2022-12-07 23:35:05 · 2414 阅读 · 0 评论 -
svd分解 复原 sklearn和numpy实现
svd分解和复原 sklearn和numpy实现原创 2022-12-07 22:44:42 · 1267 阅读 · 2 评论 -
pandas 类别转化为数字
pandas 类别转化为数字的三种方法原创 2022-12-07 18:21:37 · 2001 阅读 · 0 评论 -
python yield send 用法简明理解
本文介绍了Python中yield关键字的用法,并对send等调用方法作了分析。原创 2022-11-17 21:29:02 · 619 阅读 · 1 评论 -
python二分查找模板
经常会遇到需要进行二分查找的情境,python中的bisect很好用,当无法使用这个库的时候,可以自己手动实现。下面的代码片段实现了“查找target第一次出现的位置”,以及“第一个大于target的值的位置”两个功能,如果要找target最后一次出现的位置,可以在“第一个大于target的值的位置”的基础上减一。如果第一次查找11,left和right都等于7(即数组的长度,因为11不存在于数组arr中),需要手动判断。下面的代码适用于剑指offer《在排序数组中查找数字》import bisec原创 2021-08-10 22:08:33 · 228 阅读 · 1 评论 -
二叉树遍历 非递归 简单方法 python
看到很多相关解法,感觉有些难以理解,发现了下面这个文章,分享给大家。里面的主要思路就是放一个空节点,利用空节点来完成其它管理工作。统一框架 方便理解。#前序class Solution: def preorderTraversal(self, root: TreeNode) -> List[int]: res = [] stack = [] if root: stack.append(root) whi转载 2021-05-10 20:55:29 · 119 阅读 · 0 评论 -
pytorch 频率 过滤 保留高频 保留低频
实验中遇到这样一个需求,在[batch_size,seq_length]的二维tensor中,找到每一个batch_size中出现频率最高的那一项,过滤掉其他项(保持原有形状),并获取其编码。例如,输入序列是[ [1,1,1,2,2],[3,3,4,4,4]], 期望获得[[1,1,1,0,0],[0,0,4,4,4]],之后再获取1和4的embedding表示。(如果想获得[1,4]也是类似的),代码如下:import numpy as npimport torch # 关键代码,数据会在后原创 2021-03-09 17:55:17 · 1049 阅读 · 0 评论 -
pytorch topk 保持维度和位置 置零
pytorch的topk能够返回最大的k个值,现在假设有一个[2,3,4]的权重矩阵,如果我们需要在第三个维度找出最大的两个值,(并保持权重矩阵的维度不变,且最大值的位置也不变),topk就不是很好用了,以下代码能解决这个问题:import torchimport numpy as npif __name__ == "__main__": x=torch.tensor(np.arange(1,25)).reshape(2,3,4) print(x) # k=2表示选择两个最大值原创 2021-02-26 00:18:08 · 2335 阅读 · 2 评论 -
colab 文件位置
-------- 首先使用这两行代码,就能操作谷歌云盘了from google.colab import drivedrive.mount('/content/drive')-------- 接下来使用 pwd ls等命令就能查看文件位置了,文件的根目录是/content/drive/MyDrive,你所上传的文件都是在这个目录下的,使用的话可以加上这个路径有一个bug,就是当你使用pwd时,文件路径会变成“My Drive”,有一个空格,当遇到问题时...原创 2021-02-14 20:01:51 · 6323 阅读 · 0 评论 -
pytorch gru rnn lstm 整理
其他人的博客里对于参数之类的讲解已经很详细了,这里汇总一下我看到的可能有用的资源,首先是lstm等的pytorch实现的直观理解,然后是gru的手动实现,rnn和lstm类似。rnn类似的网络,并不是一次输入1句话,而是每次输入一个单词。例如[[11,12,13,14],[21,22,23,24]],每个数字代表一个单词,输入的时候,是按照(11,21),(12,22),(13,23),(14,24)的顺序输入的。1.pytorch(参考AI有道:https://zhuanlan.zhihu.com/p原创 2021-01-27 23:41:53 · 359 阅读 · 4 评论 -
pandas 频率 赋值 重置
假设有30位同学,每人买ABCD四种商品,,每件商品的编号是1~10,现在需要统计A类商品中购买频率过低的商品。例如A商品有{1,1,1,2,2,2,3,3,3,4},则4号商品是购买频率过低的商品。if __name__=="__main__": from pandas import DataFrame import numpy as np # 30行4列 data = np.random.randint(1, 10,(30,4)) print(data)原创 2021-01-25 12:49:50 · 127 阅读 · 0 评论 -
pytorch-gpu 与 jupyter
安装torch-gpu的时候,可能不需要额外安装cudnn与cuda,cuda可能是电脑自带的,cudnn好像会跟torch一起被安装。今天准备自己处理一下数据,数据量1G以上,所以需要用jupyter,我运行了一下conda install jupyter就崩溃了,尝试了很久没法回复,所以从头安装一下,整个过程记录如下:新建py36环境 conda create -n torch_jupyter python=3.6安装pandas等必要的库;随后安装jupyter notebook,注意使用原创 2021-01-24 23:01:40 · 699 阅读 · 1 评论 -
pytorch 获取最后一个非0值 截取
之前的一个文章写过tensorflow如何实现,有可能对大家有帮助,这里用pytorch实现了一下,大概意思就是,输入1个[batch_size , seq_len ]的矩阵,目的是获取每一行中的最后一个非零元素,例如[ [1,2,3,0,0,0], [4,5,0,0,0,0]],期望获取[[3],[5]], 这个功能在srgnn之类的模型中有用到,就是获取每个交互序列的最后一个有意义值。注意序列中,0都是排在末尾的。import torchimport timeif __name__ == "__原创 2021-01-21 11:29:40 · 1219 阅读 · 4 评论 -
pytorch gather 使用详解
gather别人有讲过,但是有些抽象,我举个例子来展示。假设3位同学参加4个科目的考试,成绩记录位item_emb,每门科目有可能考一次,也有可能考两次(为了举例子方便)注意,下面的-1会在最后再讲一下。index和item_emb在-1之外的维度上,形状必须相同在dim=0的情况下gather,假设,考4门,每门科目考一次,item_em是(3,4,1)的,在dim=0上做操作,因此index必须是(-1,4,1)维度的,index中元素的取值不能大于3-1,会生成一个(1,4,1)的向量,这个向量原创 2021-01-20 19:36:52 · 224 阅读 · 3 评论 -
pytorch repeat 使用详解
repeat可以完成指定维度上的复制,通过不同的复制方法以及与view的混用,能完成向量之间的两两交互,在与推荐系统有关实际使用中,repeat可以这样用:假设有一个item_emb矩阵,形状是[2,2,4],代表了2位用户,每个用户有2个感兴趣的商品,每个商品可以用4维向量表示:item_emb:tensor([ [[0.5764, 0.8429, 0.5437, 0.9735], [0.8917, 0.5450, 0.7866, 0.6392]],原创 2021-01-18 23:26:33 · 753 阅读 · 3 评论 -
pytorch 矩阵相乘 matmul 详解
论文中经常遇到加权和,其中的权重对应着下面weight矩阵中的“3”,需要处理的数据对应着下面的item矩阵,item矩阵是[35]的,这里的“3”最关键,理解了3的意义,也就理解了矩阵相乘假设有一个weight矩阵[43],和一个item矩阵[3*5]:weight矩阵表示4位用户对三件产品的关注程度,item矩阵表示三件产品在5个维度上的得分weight:tensor([[0.1000, 0.1000, 0.9000], [0.0100, 0.0100, 0.9800],原创 2021-01-18 18:20:58 · 1603 阅读 · 0 评论 -
python 字典 排序 sorted()
对一个字典进行排序,可以有四种方式,当对key进行排序时,lambda只能根据x[0]进行排序dict = {"a": 4, "d": 1, "b": 3, "c": 2}if __name__ == "__main__": # 对整个字典排序,结果是[('d', 1), ('c', 2), ('b', 3), ('a', 4)] items = [x for x in sorted(dict.items(), reverse=False, key=lambda x: x[1])]原创 2021-01-16 18:28:03 · 163 阅读 · 0 评论 -
谷歌Colab 免费gpu
矩池云如果只是短暂使用,请用矩池云,大概3元/小时,就能用2080Ti,和kaggle的免费平台差不多快(kaggle现在是30小时gpu加30小时tpu,tpu需要代码支持),google可能分配到P100之类的显卡,性能还不如2080Ti,但如果分配到v100之类的,可能会比2080Ti快一半。Colab参考了下面的链接,这个链接有点老,但是很多内容还是不错的,请结合下面链接和我后面的内容一起看。https://www.jianshu.com/p/2cf00bb9db34步骤:上传数据和原创 2020-12-21 20:07:05 · 1566 阅读 · 3 评论 -
tensorflow 获取形状
使用这个函数即可:def get_shape(inputs): dynamic_shape = tf.shape(inputs) static_shape = inputs.get_shape().as_list() shape = [] for i, dim in enumerate(static_shape): shape.append(dim if dim is not None else dynamic_shape[i]) return s原创 2020-10-01 17:49:56 · 630 阅读 · 3 评论 -
faiss安装
按照官网教程,发现安装很慢,并且官网安装时下载的包的版本也不对,conda install -c pytorch很慢,因此选择手动安装包。1.安装mklconda install mkl2.下载faiss-gpu首先查看一下自己的cuda版本和python版本,这个一定的要弄对。然后去 https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/ 下载,我下载的是faiss-gpu-1.5.0-py35_cuda10原创 2020-09-28 16:08:27 · 1792 阅读 · 7 评论 -
tensorflow GPU版本安装及报错
1. tf1-gpu安装注意参考地址:https://www.e-learn.cn/content/qita/609443注意不要同时运行多个python解释器,一定要把cpu版本的tf和之前安装的tensorflow卸载干净,确保conda list和pip list中没有cpu版本的tensorflow,最好把tensorboard等也卸载。安装完成后,conda list查看一下,c...原创 2020-02-11 14:30:27 · 368 阅读 · 0 评论 -
基于NMF的推荐系统实例
参考:https://blog.csdn.net/qq_26225295/article/details/51165858代码:py36import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn.decomposition import NMFmpl.rcParams['...原创 2020-02-05 10:21:46 · 646 阅读 · 1 评论 -
推荐系统实践读书笔记
最近大概复习了一下这本书,了解了较早的推荐系统的一些方法,记录如下,以便大家对本书内容有个快速地了解。略去了第一张,详细的代码和细节可以参考其他博客。需要关注的地方直接标出了页码。书里面的代码不是很完整,用来学习还可以。第八章介绍了一些svd等机器学习的算法,在2020年的今天可以回顾一下。推荐系统实践第二章:利用用户行为数据常见数据集:Book-Crossing(有评分、年龄、书籍的简...原创 2020-02-03 18:07:48 · 270 阅读 · 0 评论 -
win10 GTX1060 安装CUDA+PyTorch GPU
1.说明其他博客已经讲得很详细了,但是或多或少会有些问题,我自己安装了一遍 发下了如下的一些注意事项,想安装的同学们注意了。假设你已经安装好了anaconda 和py37。2.CUDA和 cudnn安装cuda的时候,大的版本号一定要对,安装cuda的时候会自动帮你更新驱动的版本。例如我现在的显卡支持9.2.1,那么安装cuda9.2.148的时候,会自动让我的显卡驱动更新到9.2.14...原创 2020-01-10 13:22:51 · 7103 阅读 · 1 评论 -
tensorflow 参数初始化,dropout或batchnorm,梯度截断的实现
概要本文介绍了一些晓得训练技巧,分别是参数初始化、dropout和batch_norm、梯度截断,中间两者可以单独使用,一起使用的话,需要尝试一下。一种初始化方法,xavier看了其他人的博客,发现有一种参数初始化的方法没有被提到,需要的话可以尝试一下: w1 = tf.get_variable('w1', [2, 2], tf.float32, xavier_initializer...原创 2019-12-16 22:48:26 · 395 阅读 · 0 评论 -
Pandas groupby apply 自定义apply
这篇文章介绍了自定义apply函数和groupby的联合用法。pandas中,groupby和apply一起使用,会减少很多操作。被groupby后的数据是一组一组的DataFrame,这些Frame会被apply函数处理。apply函数能够返回单一值、Series和DataFrame。 这些返回结果能够被拼接成Series或者DataFrame,你只需要自定义一个合适的函数f并把它传给a...原创 2019-11-20 15:49:40 · 1711 阅读 · 0 评论 -
python基础 列表表达式 zip 二维数组
试验一下列表表达式在二维数组中的应用,比较基础的例子,直接上代码,分析都在注释中,注意zip是如何把两个矩阵m和n打包的。import mathdef mySum(a,b): he=[] for (x,y) in zip(a,b): he.append(x+y) return hedef myMul(a,b): he=[] for ...原创 2019-11-19 13:29:17 · 1233 阅读 · 0 评论