python小用法日常笔记--不断update中 pandas读入和读出剪切板内容平时计算出的不太大的结果,可以直接读出到剪切板,在复制到excel中比较方便。df.read_clipboard()df.to_clipboard()
SQL/Python-窗口函数整理 一、MySQL & HiveSQL1、窗口函数语法FUNCTION_NAME([argument_list])OVER ([PARTITION BY window_partition,…][ORDER BY window_ordering, … [ASC|DESC]])[ { ROWS | RANGE } BETWEEN frame_start AND frame_end ] )示例:sum(sale) over(partition by city order by year
决策树画图 决策树画图from sklearn.tree import DecisionTreeClassifierimport graphvizfrom sklearn.tree import export_graphvizclf = DecisionTreeClassifier(criterion='gini' ,random_state=123 ,splitter='best' .
记录-selenium简单实现自动点击操作 最近测试规则,网页上每条测试只能手动点测试,想写个脚本实现自动点击,网上收集资料可以用selenium实现,模拟人登录。import seleniumfrom selenium import webdriverfrom selenium.webdriver.common.by import By现收集如下材料:使用selenium模拟打开谷歌浏览器:1、要下载浏览器版本对应的ChromeDriver驱动包:下载网址2、打开谷歌浏览器# 找打刚才安装的chromedriver.exe的位置
excel转json操作 工作中需要用到将从数据库中下载的excel每行数据转成json文件,用于规则回溯,参考网上资料,通过以下代码可实现:import pandas as pdimport numpy as npimport jsonimport datetime# 导入数据# 由于phone2有缺失值,如果不加converters ={'phone2':str},导致读入会变成float形式,导致有值的手机号码后会加点0,如13812341234.0data= pd.read_excel(r'C:\Users\
hivesql-根据逗号将一行数据拆成多行 列转行1、使用explode或posexplode方法1.1 对单列实行列转行 explode 配合 lateral view 使用-- 测试数据with temp as(select 1 as id ,'a,b,c' as name union select 2 as id ,'d,e,f' as name)测试数据如下:select id,name,s_namefrom temp lateral view explode(s
时间日期处理-pandas 时间日期类型to_datetimepandas.to_datetime 将给定数据转化为日期时间。pandas.to_datetime(arg, errors=‘raise’, dayfirst=False, yearfirst=False, utc=None, format=None, exact=True, unit=None, infer_datetime_format=False, origin=‘unix’, cache=True)常用参数说明备注arg要转
时间日期处理-mysql 此篇将sql、python中用到的常见时间日期操作做个总结,便于日常工作中查看使用。1.SQL 日期操作1.1 mysql 日期和时间类型mysql中总共有5种日期时间类型,如下表:类型大小(字节)格式最小值最大值举例DATE4YYYY-MM-DD1000-01-019999-12-311973-12-30TIME3HH:MM:SS-838:59:59838:59:5915:30:00DATETIME8YYYY-MM-DD HH:M
python网络爬虫基础学习-2 2.网页解析Beautiful Soup库是解析、遍历、维护“标签树”的功能库2.1 Beautiful Soup功能介绍Beautiful Soup解析器:soup = BeautifulSoup(r.text, ‘htlm.parser’)r.text即在用request库获得的网页内容‘htlm.parser’ 是一种解析器,解析器有多种可选,具体见下图:>>>url ='https://python123.io/ws/demo.html'>>&
python网络爬虫基础学习-1 基础爬虫学习,满足数据分析时需要对有关网站爬取以获取数据。网络爬虫一般流程获取网页解析网页提取内容保存数据1.获取网页使用requets库的相关功能对网页发起请求并返回响应1.1 requests介绍1.1.1 requests库的主要方法这些方法对应的HTTP功能如下:实际上,后面6个方法是第一个方法request的特例:例如:requests.request(‘GET’,url) 与 requests.get(url ) 功能一致。上述kwargs13
文件操作 处理文本文件处理txt、doc等选择使用python原始文件处理方法1. 打开文件file_obj =open(file,[mode='r’,buffering=-1,encoding=None,errors=None,newline=None,closefd=True,opener=None])file:文件名,如果不在当前路径,需指出具体路径mode:打开文件的模式,具体见下图encoding:文件编码方式newline:换行符2. 读取文件read([size]) 读出整个文
爬虫-图像批量下载实战 import requestsfrom bs4 import BeautifulSoup import os# 通过图片网页地址,写入到本地def get_image(url,fn): resp =requests.get(url) with open('头像\{}.png'.format(fn),'wb') as f: f.write(resp.content) # 图片要要通过二进制格式写入# 获取网页、网页解析def loan_image(url):
CM资料下载操作 近期需要对系统中的CM影像资料进行下载,数据平台提供的接口只能通过上传apply_id下载,并且文件名也只标注apply_id,希望将下载完成后的文件名根据apply_id转成transport_id等,并最后按dept_name分组。import numpy as npimport pandas as pdimport osimport shutil# 封装成函数def cm_rename(path,match_data): # 后面添加是否考虑按营业部+时间分组? """ p
支持向量机SVM基础理解 定义支持向量机是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器;支持向量机还包括核技巧,使它成为实质上的非线性分类器。支持向量机学习策略是间隔最大化,形式化为一个求解凸二次规划的问题。间隔与支持向量先来看看下面这一组数据的分布,这是一组两种标签的数据,两种标签分别由圆和方块代表。支持向量机的分类方法,是在这组分布中找出一个超平面作为决策边界,将不同类别分开,但能将样本...
机器学习-贝叶斯 1. 基本概念先验概率事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(A),P(B)。条件概率一个事件发生后另一个事件发生的概率。一般的形式为P(A|B)表示B发生的条件下A发生的概率。后验概率事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,即执果求因。西瓜举例:先验概率,就是常识、...
模型融合 模型融合是将多种调参完成的模型进行融合 。融合的几种方式简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在x...