putdoor-CSDN博客

原创《剑来》经典语录摘抄

剑来小说经典语录、段落摘抄，修道亦修心

2023-01-28 15:24:07 10466

1.使用阿里云镜像pip install tensorflow_gpu==1.14.0 -i https://mirrors.aliyun.com/pypi/simple --ignore-installed2.使用清华源pip install tensorflow_gpu==1.14.0 -i https://pypi.tuna.tsinghua.edu.cn/simple --ignore-installed3.使用豆瓣源pip install tensorflow_gpu==1.14.0

2020-12-09 16:43:37 831

原创 Python Flask框架 FileStorage文件对象的使用

1.Flask中的FileStorage是什么？在Flask服务框架中，当客户端向服务端传送文件的时候，文件到服务端的时候，会被以stream的方式作为临时文件缓存在内存中。2.如何使用FileStorage对象？（1）直接保存在服务端（当你知道上传的究竟是pdf还是png还是jpg…时）filestorage.save('临时保存.pdf')（2）读取成二进制流使用file_bytes = filestorage.read()此时: 通过.read()方法后，FileStorage对象已

2020-11-19 16:28:47 16078 1

原创 pycharm逐行调试时跳过了某行的解决办法

1.首先说原因我遇到的：是由于该行的函数，有装饰器（或者说闭包）装饰它。2.场景再现如图，在逐行调试的时候，我迫切想要知道第98行调试时所返回的内容，而且我还想进入98行的函数内，看看内部到底发生了什么。然而，当我点击 Step Over 调试下一行的时候，该死的蓝色调试框，跳到了第99行。3.如何解决此时我已经结束了本次debug，当我自己点进第98行的函数进去看的时候，发现没错，函数套了个@response_parser的装饰器，只要有这个装饰器存在，而且我debug时，跳过了该行。

2020-11-17 16:09:26 2512 2

原创 PDF文件的读取 - pdfplumber和fitz(PyMuPDF)

本文根据是pdfplumber和fitz对于pdf的最新最准确的读取方式，由于在真实的项目中，需要处理来自与post请求提取的表单数据，该类型是bytes格式的pdf文件，而网上对于该类型pdf的读取介绍甚少，故本文在详细阅读了pdfplumber和fitz的官方文档后，总结了读取pdf对象的方法

2020-09-14 11:41:28 8227 5

原创 pip ImportError 'SourceDistribution'

在使用pip的时候，报错：ImportError: cannot import name ‘SourceDistribution’ from ‘pip._internal.distributions.source’ (/Users/v_chenyushen/anaconda3/lib/python3.7/site-packages/pip/_internal/distributions/sourc...

2019-12-10 12:28:29 1263 1

原创快速入门一个简单的情感分类项目

本文是快速入门一个简单的情感分析模型，使用2018年最强的NLP预训练模型BERT，用公开的数据集：酒店的7000条评论数据进行训练，1代表正向评论，0代表负向评论，最终我们实现输入一条评论数据，我们对它做情感分类，本模型未调参，均使用BERT开源的原始参数，就已经达到0.907的分类正确率，后续建议读者调试以下参数，以获取更好的模型效果：max_seq_length、train_batch_size、num_train_epoch、learning_rate

2019-11-21 10:26:30 4309

原创 str、unicode和bytes在python2、python3中的差异

（1）首先一句话：python内部使用unicode，外部使用bytes（2）字符集：就是一套字符的集合，如ASCII码，unicode（utf-8）…（3）字符编码：计算机内部数字0/1信号 <===> 字符之间的映射规则（4）python版本区别：在python3中：str类型的是unicode，如：u’\u7b80\u4e66’在python2中：str类型的...

2019-08-12 16:48:51 744

原创 ResourceExhaustedError(多方面解决GPU显存不足)

字面意思就是:该模型在运行过程中使用GPU资源的时候,GPU资源枯竭了,有以下解决办法:1.充钱:当然也是最low最迫不得已的办法,GPU显存越大越强,核数越多越强,充钱少掉头发,充钱使人变强.2.资源占用层面:(1) 先观察GPU的占用情况: 使用以下linux命令等待一会儿即可得到GPU的情况nvidia-smi我们发现,这8核GPU没有哪一核被使用(2) 查看是否还有其他...

2019-08-08 19:58:45 8454

原创 Mac本Camelot库安装指南

Mac本下载Camelot时需要执行以下三条命令：pip install camelot-py[cv]pip install ghostscriptbrew install ghostscript不执行第二句会报：OSError: dlopen(libgs.so, 6): image not found 的错误；不执行第三句会报：RuntimeError: Please make sur...

2019-07-17 14:37:57 1814 1

原创 BERT源码注释(run_classifier.py) - 全网最详细

摘要：本文为BERT模型的run_classifier.py的详细注释，便于了解模型内部究竟做了什么？模型可调参数有哪些？自己写一个processor的类，需要注意哪些？想要运行这个脚本，需要传入哪些参数？尽在本文详细注释！# coding=utf-8# bert注解版# author：putdoor"""BERT finetuning runner."""from __future...

2019-06-27 18:21:48 7233 4

原创个性化广告推荐系统（实战）-2-CTR预估数据准备上

1.分析并预处理raw_sample数据集1.1 查看与分析# 从HDFS中加载样本数据信息df = spark.read.csv("hdsf://localhost:9000/datasets/raw_sample.csv", header=True)df.show() # 展示数据，默认前20条df.printSchema()显示结果：+------+----------+--...

2019-05-21 21:15:00 1924

原创个性化广告推荐系统（实战）-1-协同过滤篇

一. 数据集介绍与实现分析1. 数据集介绍本项目使用天池数据集，淘宝广告展示/点击数据集 – Ad Display/Click Dataraw_sample淘宝网站中随机抽样了114万用户8天内的广告展示/点击日志（2600万条记录）构成原始的样本数据:字段描述user_id脱敏过的用户IDadgroup_id脱敏过的广告单元IDtime_stamp...

2019-05-05 10:11:42 5205 6

转载 CSS初始化(完美版)

摘要:1.本文分两部分代码,一部分结合Github上引用次数最多的necolas的通用浏览器初始化,2.同时结合实际经验,引用了阿里云css对常用标签进行基本初始化,从而达到在项目开发中直接能引用.3.如何使用这两部分代码：readme1.浏览器初始化目的:消除不同浏览器对HTML文本呈现的差异.此处引用Github中necolas的浏览器初始化: https:/...

2018-12-06 13:42:53 44970 2