Python
墨小青的程序园
这个作者很懒,什么都没留下…
展开
-
pyspark入门 中文官方文档
pyspark入门原创 2022-10-26 16:02:32 · 2390 阅读 · 1 评论 -
【python智能办公】处理excel 复制sheet模板带样式 并插入修改数据
from pandas import DataFramedf1 = DataFrame({'a':[1,3,5,7,4,5,6,4,7,8,9], 'b':[3,5,6,2,4,6,7,8,7,8,9]})df2 = DataFrame({'a':[1,3], 'b':[3,5]})# df1.values.tolist()# df2.values.tolist()import openpyxl# 读取表头.原创 2022-05-05 11:42:30 · 1634 阅读 · 0 评论 -
python 爬取图片 并保存至docx
#!/usr/bin/evn python# -*- coding: utf-8 -*-import osimport timeimport requestsfrom docx import Documentfrom docx.shared import Inchesclass MyObject(object): def __init__(self): self.doc = Document() def get_url(self, id): .原创 2020-06-19 10:10:47 · 1347 阅读 · 0 评论 -
破解 语序点选验证码
转自:https://blog.csdn.net/diegen8187/article/details/85265113设计思路前言国家企业信用信息公示系统中的验证码是按语序点击汉字,如下图所示:即,如果依次点击:‘无’,‘意’,‘中’,‘发’,‘现’,就会通过验证。本项目的破解思路主要分为以下步骤:使用目标探测网络YOLOV2进行汉...转载 2020-03-17 19:19:47 · 5805 阅读 · 2 评论 -
吴恩达深度学习笔记-卷积神经网络
04.卷积神经网络第一周 卷积神经网络1.1 计算机视觉1.2 边缘检测示例垂直边缘检测vertical1.3 更多边缘检测内容边缘过渡水平边缘检测horizontal1.4 padding问题:卷积后图片缩小; 边缘信息丢失过滤器(卷积核)一般都为奇数(原因:1、可以对称填充...原创 2020-01-25 17:19:07 · 577 阅读 · 0 评论 -
scikit-learn:CountVectorizer提取词频
http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer sklearn.feature_extraction.text.CountVectorize...转载 2018-09-21 17:06:27 · 3419 阅读 · 0 评论 -
python sklearn ︱分类效果评估——acc、recall、F1、ROC、回归、距离
一、acc、recall、F1、混淆矩阵、分类综合报告1、准确率第一种方式:accuracy_score# 准确率import numpy as npfrom sklearn.metrics import accuracy_scorey_pred = [0, 2, 1, 3,9,9,8,5,8]y_true = [0, 1, 2, 3,2,6,3,5,9]accuracy...转载 2018-08-02 16:43:54 · 1145 阅读 · 0 评论 -
python-生成HTMLTestRunner测试报告
转自:https://blog.csdn.net/galen2016/article/details/73251240一、安装HTMLTestRunnerHTMLTestRunner 是 Python 标准库的 unittest 模块的一个扩展,它可以生成 HTML的 测试报告。 首先要下 HTMLTestRunner.py 文件,将下载的文件放入…\python\Lib目...转载 2018-08-15 21:04:08 · 1696 阅读 · 0 评论 -
cross validation:几种交叉验证方式的比较
模型评价的目的:通过模型评价,我们知道当前训练模型的好坏,泛化能力如何?从而知道是否可以应用在解决问题上,如果不行,那又是哪里出了问题?train_test_split在分类问题中,我们通常通过对训练集进行train_test_split,划分成train 和test 两部分,其中train用来训练模型,test用来评估模型,模型通过fit方法从train数据集中学习,然后调用scor...转载 2018-09-25 15:57:08 · 893 阅读 · 0 评论 -
sklearn训练/测试数据集划分
原理介绍K折交叉验证:KFold,GroupKFold,StratifiedKFold,留一法:LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,LeavePOut,随机划分法:ShuffleSplit,GroupShuffleSplit,StratifiedShuffleSplit, 代码实现流程...转载 2018-09-25 17:26:23 · 938 阅读 · 0 评论 -
python selenium打开新窗口,多窗口切换
# coding=utf-8from selenium import webdriverbrowser=webdriver.Firefox()browser.maximize_window() # 窗口最大化browser.get('https://www.baidu.com') # 在当前浏览器中访问百度# 新开一个窗口,通过执行js来新开一个窗口js='window.op...转载 2018-07-31 10:41:55 · 1819 阅读 · 0 评论 -
url请求中的%hu%ft实际上是中文
搜索的时候经常会出现中文,比如说:www.xxx.com/?k=春节有的时候看到的是:www.xxx.com/?k=%E6%98%A5%E8%8A%82实际上%E6%98%A5%E8%8A%82就是春节的utf8编码python转码:from urllib import parsea = '春节'print(a.encode('utf8')) # 同:str.encode(a)b = b...原创 2018-07-03 10:24:49 · 634 阅读 · 0 评论 -
Mac配置python3环境
mac自带的是python2,但是我们现在用的是python3,所以需要单独下载 1.下载安装ananconda3 直接官网下载 不花钱anaconda里面已经安装了很多python 的第三方包 用起来很方便anaconda里面有spyder、jupyter编译器2.下载pycharm用pycharm编程比较方便项目编译器选择刚菜安装的anaconda中的python...原创 2018-06-25 13:46:19 · 16471 阅读 · 0 评论 -
格式化和清洗数据的 Python 工具包
DoraDora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:读取含有缺失数据和没有标准化的数据表给缺失数据赋值标准化变量开发者:Nathan Epstein更多资料:https://github.com/NathanEpstein/Doradatacleaner号外号外,datacleaner 清洗你的数...转载 2018-05-31 15:08:10 · 684 阅读 · 0 评论 -
mac设置默认python为python3
1.首先打开终端2.打开配置文件,输入open ~/.bash_profile3. 在配置文件中,写入python的外部环境变量(后面为python的位置,本人的版本是3.6) export PATH=${PATH}:/Applications/anaconda3/bin/python.app4.重命名pythonalias python="/Applications/anaconda3/bin/...原创 2018-06-21 20:37:05 · 25970 阅读 · 1 评论 -
快排
快速排序算法,简称快排,是最实用的排序算法,没有之一,各大语言标准库的排序函数也基本都是基于快排实现的。本文用python语言介绍四种不同的快排实现。1. 一行代码实现的简洁版本[python] view plain copyquick_sort = lambda array: array if len(array) <= 1 else quick_sort([item for item i...转载 2018-05-30 11:19:40 · 284 阅读 · 0 评论 -
python 处理hbase数据
本文基于实验室已经搭建好的Hadoop平台而写,使用Python调用happybase库。1.thrift 是facebook开发并开源的一个二进制通讯中间件,通过thrift,我们可以用Python来操作Hbase 首先开启Hadoop平台的HadoopMaster的thrift服务,用Xshell连接HadoopMaster,用root用户登录,如果想关闭终端之后,thrift服...转载 2018-05-28 18:13:36 · 6183 阅读 · 2 评论 -
Python机器学习库scikit-learn实践
转自:https://blog.csdn.net/zouxy09/article/details/48903179一、概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱颖而出,而表现平平者则被历史所淡忘。随着机...转载 2018-05-28 10:32:08 · 221 阅读 · 0 评论 -
Numpy/pandas/matplot 主要函数
一:numpynumpy中文教程官方文档Numpy是一个用于进行数组运算的库 Numpy中最重要的对象是称为ndarray的N维数组类型 一般使用如下语句导入:import numpy as np 创建数组:numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)...转载 2018-09-20 14:54:35 · 587 阅读 · 0 评论 -
Scikit-learn学习
python机器学习实践与kaggle实战Sklearn快速入门官方文档官方文档中文翻译sklearn 把所有机器学习的模式整合统一起来了,学会了一个模式就可以通吃其他不同类型的学习模式 步骤一般分为导入模块-创建数据-建立模型-训练-预测特征工程:在机器学习中,很重要的一步是对特征的处理,我们参考下文,先给出一些常用的特征处理方法在sklearn中的用法使用skl...转载 2018-09-20 16:07:14 · 380 阅读 · 0 评论 -
文本分类/聚类
预处理删除标点符号python进行删除标点符号 text=u'''职位描述 乐视招聘android自动化测试工程师 岗位职责:1、负责android超级电视TV设备的自动化方案设计、自动化测试与工具开发; 2、根据项目特点研究稳定性测试技术,完成相关工具的开发以及测试; 技能要求:1、有移动终端自动化工具架构设计与开发者优先,熟悉Android自动化工具Uiautomator、Mo...转载 2018-10-11 11:29:19 · 2041 阅读 · 0 评论 -
火狐+selenium3+录屏自动生成代码
打开火狐浏览器“工具”,选择“附加组件”2.选择“查看更多组件”3.搜索插件4.安装这个插件5.验证是否成功(判断右上角是否有这个绿色的图标)6.点击上图中右上角的绿色插件,开始录制自动化测试,点击“Record”便可进行操作过程录制7.录制结束后点击“stop”后结束录制,点击“Export”便可...转载 2019-06-04 11:44:40 · 697 阅读 · 0 评论 -
Pycharm配置——解释器(interpreter)
Python的解释器就是Python.exe看到这个选项没有,这里说是虚拟环境,也就是说这是一个虚拟解释器,它是建立在D盘里面的Python解释器(第二个圆圈)基础之上的,这里的虚拟解释器在我理解来看,其实和缓存差不多,将要用到的东西放到项目文件夹中,用到的时候,直接调用邻近的,这样速度快,如果没有了,再去原解释器(D盘中),寻找需要的东西。上面提到这种虚拟环境,其实是起到...转载 2019-05-15 20:05:58 · 11574 阅读 · 0 评论 -
离线下载pip包进行安装
Host-A 不能上网,但是需要在上面安装python-package通过另外一台能上网的Host-B主机1. 下载需要离线安装的Packages在Host-B上执行如下命令:安装单个Packagepip install <package> --download /tmp/offline_packages最新方法 pip download ~pip d...转载 2019-05-15 19:22:36 · 4450 阅读 · 0 评论 -
Python绘图:Turtle库
Turtle库是Python语言中一个很流行的绘制图像的函数库,想象一个小乌龟,在一个横轴为x、纵轴为y的坐标系原点,(0,0)位置开始,它根据一组函数指令的控制,在这个平面坐标系中移动,从而在它爬行的路径上绘制了图形。turtle绘图的基础知识:1. 画布(canvas) 画布就是turtle为我们展开用于绘图区域,我们可以设置它的大小和初始位置。 设...转载 2019-01-24 18:49:42 · 805 阅读 · 0 评论 -
Python-turtle库知识小结(python绘图工具)
turtle:海龟(海龟库) Turtle库是Python语言中一个很流行的绘制图像的函数库 使用之前需要导入库:import turtle • turtle.setup(width,height,startx,starty) -setup() 设置窗体的位置和大小 相对于桌面的起始点的坐标以及窗口的宽度高度,若不写窗口的起始点,则默认在桌面的正中心 窗体...转载 2019-01-24 17:36:10 · 1194 阅读 · 0 评论 -
pycharm执行代码后 查看变量
在pycharm运行程序后,继续在console对程序中数据进行操作,可以通过以下方式:1、在菜单栏中,选择项目的下拉菜单里的Edit Configuration2、选择对应项目,勾选 Show command line afterwards3、程序运行之后,就会继续保持python shell的状态,可以对数据进行操作调试。4、调试后记得关闭...原创 2018-12-06 17:20:46 · 5765 阅读 · 0 评论 -
what if 使用demo
假设工具从头开始 - 从CSV到经过培训的二进制分类模型到假设工具使用这个笔记本显示了从CSV加载数据集的过程,训练一个非常简单的分类器,预测其中一列,然后使用假设工具(WIT)分析训练数据集和训练数据model。这个笔记本使用了UCI Census数据集和学习问题,详情请参阅https://archive.ics.uci.edu/ml/datasets/census+income,...翻译 2018-12-04 19:37:57 · 561 阅读 · 1 评论 -
MNIST数据集scikit-learn实践
原文:https://blog.csdn.net/zouxy09/article/details/48903179参考:https://www.cnblogs.com/upright/p/4191757.html一、概述 分类算法为例,大致可以分为线性和非线性两大派别。线性算法有著名的逻辑回归、朴素贝叶斯、最大熵等,非线性算法有随机森林、决策树、神经网络、核机器等等。线性算...转载 2018-11-05 17:44:35 · 2136 阅读 · 0 评论 -
Python:seaborn的散点图矩阵(Pairs Plots)可视化数据
散点图矩阵让我们看到了两个变量之间的关系,分析趋势。在本文中,我们将通过使用seaborn可视化库在Python中进行对图的绘制和运行。我们将看到如何创建默认配对图以快速检查我们的数据,以及如何自定义可视化以获取更深入的洞察力。该项目的代码在GitHub上以Jupyter Notebook的形式提供。在这个项目中,我们将探索一个真实世界的数据集,由GapMinder收集的国家级社会经济数...转载 2018-10-12 14:58:09 · 3996 阅读 · 0 评论 -
Python数据可视化—seaborn
Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。这里实例采用的数据集都是seaborn提供的几个经典数据集,dataset文件可见于Github。1 set_style( ) set( )set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgri...转载 2018-10-12 14:36:31 · 314 阅读 · 0 评论 -
Scikit-learn函数总结
1 scikit-learn基础介绍1.1 估计器(Estimator)估计器,很多时候可以直接理解成分类器,主要包含两个函数:fit():训练算法,设置内部参数。接收训练集和类别两个参数。 predict():预测测试集类别,参数为测试集。 大多数scikit-learn估计器接收和输出的数据格式均为numpy数组或类似格式。1.2 转换器(Transform...转载 2018-09-21 18:23:12 · 1676 阅读 · 0 评论 -
pyCharm激活
server选项里边输入 http://idea.imsxm.com/转载 2018-05-14 11:40:41 · 385 阅读 · 0 评论 -
Pandas
1. 引言Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类:Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container);Panel,为3维的结...转载 2018-04-28 18:13:50 · 640 阅读 · 0 评论 -
Celery定时任务
Celery定时任务配置启用Celery的定时任务需要设置CELERYBEAT_SCHEDULE 。 Celery的定时任务都由celery beat来进行调度。celery beat默认按照settings.py之中的时区时间来调度定时任务。创建定时任务一种创建定时任务的方式是配置CELERYBEAT_SCHEDULE:#每30秒调用task.addfrom datetime import ...转载 2018-05-17 17:09:58 · 905 阅读 · 0 评论 -
python生成圆形图片
# -*- coding: utf-8 -*-"""__author__= 'Du'__creation_time__= '2018/1/5 9:08'"""import os, mathfrom PIL import Imagedef circle(): ima = Image.open("ball1.jpg").convert("RGBA") # ima =转载 2018-01-05 13:59:11 · 3511 阅读 · 0 评论 -
Python画圆
# -*- coding: utf-8 -*-"""__author__= 'Du'__creation_time__= '2018/1/4 17:30'"""import numpy as npimport matplotlib.pyplot as plt# 该行用于设置chart 的样式,可以注掉# plt.style.use("mystyle")fig = plt转载 2018-01-05 13:56:16 · 983 阅读 · 0 评论 -
Python批量压缩图片
# -*- coding: utf-8 -*-"""__author__= 'Du'__creation_time__= '2018/1/5 10:06'"""import osfrom PIL import Imageimport globDIR = 'C:/Users/Public/Pictures/Sample Pictures/'class Compress_Pic原创 2018-01-05 11:20:54 · 821 阅读 · 0 评论 -
python读取一个excel多个sheet表并合并
import xlrdimport pandas as pdfrom pandas import DataFrameDATA_DIR = 'E:/'excel_name = '%sxxx.xls' % DATA_DIRwb = xlrd.open_workbook(excel_name)# print(wb)# 获取workbook中所有的表格sheets = wb.sh原创 2018-01-04 19:33:25 · 28297 阅读 · 1 评论 -
pip upgrade批量更新过期的python库
查看系统里过期的python库,可以用pip命令1pip list #列出所有安装的库1pip list --outdated #列出所有过期的库对于列出的过期库,pip也提供了更新的命令1转载 2017-12-19 14:36:26 · 357 阅读 · 0 评论