自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 python+selenium的使用

selenium是一个web自动化测试工具,它支持多种浏览器:ie、ff、safari、opera、chrome,我目前使用比较多的就是chrome,selenium与chrome组合也是真的好用,当然有些兼容性不好的网站,也需要考虑使用IE或360等一些第三方浏览器,我最近遇到的一个项目就是网站不兼容google,必须考虑使用360浏览器(这个我也还在研究中)环境配置python我使用的是3.7,通过Anaconda进行安装的浏览器:查看google版本(chrome://version),然后在

2020-11-01 17:14:29 416

原创 常用图像算法处理-python

主要收集和记录python-opencv的一些图像处理算法。

2023-02-06 15:05:53 160

原创 MongoDB+python

MongoDB的基本操作

2022-12-03 19:23:07 492

原创 python3 自动读取邮件

imbox库读取邮件import osfrom imbox import Imbox# 存储附件def save_attachments(attachments, save_dir): fujian_path_list = [] for attachment in attachments: save_path = os.path.join(save_dir, attachment['filename']) with open(save_path, '

2022-01-06 11:02:01 1750

原创 深度学习框架之《数据增强》

pytorch篇数据增强torchvision.transforms,举例如下:import torchvision.transforms as transformsdata_transforms = transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), trans

2021-01-28 20:20:03 159

原创 EAST调试报错

调试EAST时遇到如下报错: File "E:\github项目\OCR\EAST\eval.py", line 9, in <module> import lanms File "E:\github项目\OCR\EAST\lanms\__init__.py", line 7, in <module> if subprocess.call(['make', '-C', BASE_DIR]) != 0: # return valueFile "D:\Program F

2021-01-18 16:57:16 207

原创 python 虚拟环境

Virtualenv安装 pip install virtualenv创建python虚拟环境: virtualenv my_project启动虚拟环境:my_project\Scripts\activate退出虚拟环境:deactivate

2021-01-17 11:09:21 90

原创 windows环境PySpark安装和使用

PySpark NoteBook配置修改spark\bin\pyspark2.cmd(修改前备份),我的文件路径如下:D:\opt\spark-3.0.0-bin-hadoop2.7\bin\pyspark2.cmd红框处内容修改前如上图所示,修改后如下:修改完成后,右键单击pyspark2.cmd,发送到->桌面快捷方式...

2021-01-06 15:57:00 1066

原创 语料库记录

http://www.chineselinks.cn/corpus.html

2020-12-06 14:06:22 137

原创 关于 werkzeug.contrib.fixers.ProxyFix ModuleNotFoundError问题

https://jpanj.com/2020/werkzeug-middleware-proxy-fix-ProxyFix-review/

2020-11-26 16:20:12 1022

原创 数据分析与数据挖掘

数据挖掘数据挖掘技术可以帮助我们更好的发现事物之间的规律。业务场景:发现窃电用户、发掘用户潜在需求、个性化推荐、疾病与症状/疾病与药物之间的规律数据挖掘过程1、定义目标2、获取数据(爬虫、下载一些统计网站发布的数据、自有数据)3、数据探索4、数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)5、挖掘建模(分类、聚类、关联、预测)6、模型评...

2020-11-26 10:37:19 1383

原创 xpath语法

Xpath判断某个属性是否包含或不包含指定的属性或值# 选择不包含class属性的节点".//span[not(@class)]"# 选择不包含class和id属性的节点".//span[not(@class) and not(@id)]"# 选择不包含class="expire"的span".//span[not(contains(@class,'expire'))]"# 选择包含class="expire"的span".//span[contains(@class,'expire').

2020-10-30 11:51:01 272

原创 需掌握的深度学习知识

一、权重衰减与学习率衰减https://blog.csdn.net/program_developer/article/details/80867468

2020-10-09 11:16:23 271

原创 Django

初步安装 与使用http://www.cnblogs.com/imyalost/p/8503119.html安装最新版本:pip3 install django

2020-10-03 20:17:01 109

原创 elasticsearch

elasticsearchelasticsearch是语句java开发的,所以一定要安装jdkelasticsearch 5及其以上的版本需要安装java8及以上cmd 输入java -version查看java的版本号安装第一步:下载,https://github.com/medcl/elasticsearch-rtf第二步:按照上面的步骤执行安装命令cmd 到:G:\study_code\elasticsearch-rtf-master\bin, 执行elasticsearch即可,然

2020-09-26 17:23:49 140

原创 python(字节流、buffer、多进程)

PIL.Image.Image 转二进制流import ioimport base64def pil_image_byte(image): # image: PIL.Image.Image # 这里的操作是先将PIL.Image.Image的图片转为二进制流,然后再进行base64编码 img_byte=io.BytesIO() image.save(img_byte,format='PNG') image_data = img_byte.getvalue() .

2020-09-07 15:29:55 1680

原创 图像预处理——去噪

图像中噪声的来源有许多种,这些噪声来源于图像采集、传输、压缩等各个方面。噪声的种类也各不相同,比如椒盐噪声,高斯噪声等,针对不同的噪声有不同的处理算法。噪声分类参考链接:浅析三种噪声的区别噪声分为:椒盐噪声、高斯噪声和泊松噪声,其中椒盐和高斯为常见噪声去噪在图像处理的过程中,一般情况下都进行图像增强,图像增强主要包括“空域增强”和“频域增强”, 空域增强包括平滑滤波和锐化滤波。...

2020-08-19 10:52:39 1937

原创 hdfs使用

参考链接:https://www.cnblogs.com/hziwei/p/12801867.html

2020-08-18 09:58:24 94

原创 PDF文件处理

pdf转图片import sys, fitzimport osimport datetimedef pyMuPDF_fitz(pdfPath, imagePath, pdf_num): startTime_pdf2img = datetime.datetime.now()#开始时间 print("imagePath="+imagePath) pdfDoc = fitz.open(pdfPath) for pg in range(pdfDoc.pageCoun.

2020-08-17 17:17:06 217

原创 cudn安装

查看适合的cuda版本nvidia控制面板->帮助->系统信息->组件

2020-08-10 22:08:38 599

原创 CNN-卷积神经网络

卷积运算卷积运算可划分为三种:Same卷积、Valid卷积、Full卷积(反卷积)。为什么要padding因为在卷积/池化过程中过滤器可能不能将某个方向上的数据刚好处理完Same卷积通过Padding填充0运算保证卷积前后特征图大小不变Valid卷积不补零,忽略边界,特征图会变小Full卷积实现反卷积运算的核心步骤是在特征图中padding 0,然后进行卷积运算使得特征图变大。FCN反卷积首先对特征图各神经元之间进行0填充,即上池化;然后再进行卷积运算...

2020-08-05 16:39:13 801

原创 数据预处理方式

1. 去均值操作:各维度都减对应维度的均值,使得输入数据各个维度都中心化为0原因:如果不去均值的话会容易拟合。 这是因为如果在神经网络中,特征值x比较大的时候,会导致W*x+b的结果也会很大,这样进行激活函数(如relu)输出时,会导致对应位置数值变化量太小,进行反向传播时因为要使用这里的梯度进行计算,所以会导致梯度消散问题,导致参数改变量很小,也就会易于拟合,效果不好。其他:有的说去均值是为了对图像进行标准化,可以移除图像的平均亮度值 (intensity)。很多情况下我们对图像的照度并不感兴趣

2020-07-22 17:01:02 414

原创 爬虫框架-Scrapy

CrawlSpider需要使用LinkExtractor和Rule这两个东西来决定爬虫的具体走向allow设置规则的方法:要能够限制在我们想要的url上面,不要跟其他url产生相同的正则表达式即可;什么情况下使用follow:如果爬取的页面需要将满足当前条件的url在进行跟进,那么就设置成True,否则设置成False...

2020-07-22 16:47:55 212

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除