自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 python小用法日常笔记--不断update中

pandas读入和读出剪切板内容平时计算出的不太大的结果,可以直接读出到剪切板,在复制到excel中比较方便。df.read_clipboard()df.to_clipboard()

2021-09-12 17:42:39 186 1

原创 SQL/Python-窗口函数整理

一、MySQL & HiveSQL1、窗口函数语法FUNCTION_NAME([argument_list])OVER ([PARTITION BY window_partition,…][ORDER BY window_ordering, … [ASC|DESC]])[ { ROWS | RANGE } BETWEEN frame_start AND frame_end ] )示例:sum(sale) over(partition by city order by year

2021-04-18 12:53:16 796

原创 conda打包exe

1、conda安装pyinstaller2、Anaconda Prompt 怎么切换工作路径到E盘 以及更改默认打开路径(第二个方法)3、打包

2021-04-03 09:06:24 537

原创 决策树画图

决策树画图from sklearn.tree import DecisionTreeClassifierimport graphvizfrom sklearn.tree import export_graphvizclf = DecisionTreeClassifier(criterion='gini' ,random_state=123 ,splitter='best' .

2021-03-13 21:16:10 735

原创 记录-selenium简单实现自动点击操作

最近测试规则,网页上每条测试只能手动点测试,想写个脚本实现自动点击,网上收集资料可以用selenium实现,模拟人登录。import seleniumfrom selenium import webdriverfrom selenium.webdriver.common.by import By现收集如下材料:使用selenium模拟打开谷歌浏览器:1、要下载浏览器版本对应的ChromeDriver驱动包:下载网址2、打开谷歌浏览器# 找打刚才安装的chromedriver.exe的位置

2021-01-01 13:38:20 3732 1

原创 excel转json操作

工作中需要用到将从数据库中下载的excel每行数据转成json文件,用于规则回溯,参考网上资料,通过以下代码可实现:import pandas as pdimport numpy as npimport jsonimport datetime# 导入数据# 由于phone2有缺失值,如果不加converters ={'phone2':str},导致读入会变成float形式,导致有值的手机号码后会加点0,如13812341234.0data= pd.read_excel(r'C:\Users\

2021-01-01 11:49:40 1625

原创 hivesql-根据逗号将一行数据拆成多行

列转行1、使用explode或posexplode方法1.1 对单列实行列转行 explode 配合 lateral view 使用-- 测试数据with temp as(select 1 as id ,'a,b,c' as name union select 2 as id ,'d,e,f' as name)测试数据如下:select id,name,s_namefrom temp lateral view explode(s

2020-11-23 08:18:33 10218 1

原创 时间日期处理-pandas

时间日期类型to_datetimepandas.to_datetime 将给定数据转化为日期时间。pandas.to_datetime(arg, errors=‘raise’, dayfirst=False, yearfirst=False, utc=None, format=None, exact=True, unit=None, infer_datetime_format=False, origin=‘unix’, cache=True)常用参数说明备注arg要转

2020-07-04 16:11:38 361

原创 时间日期处理-mysql

此篇将sql、python中用到的常见时间日期操作做个总结,便于日常工作中查看使用。1.SQL 日期操作1.1 mysql 日期和时间类型mysql中总共有5种日期时间类型,如下表:类型大小(字节)格式最小值最大值举例DATE4YYYY-MM-DD1000-01-019999-12-311973-12-30TIME3HH:MM:SS-838:59:59838:59:5915:30:00DATETIME8YYYY-MM-DD HH:M

2020-06-25 10:39:59 211

原创 python网络爬虫基础学习-2

2.网页解析Beautiful Soup库是解析、遍历、维护“标签树”的功能库2.1 Beautiful Soup功能介绍Beautiful Soup解析器:soup = BeautifulSoup(r.text, ‘htlm.parser’)r.text即在用request库获得的网页内容‘htlm.parser’ 是一种解析器,解析器有多种可选,具体见下图:>>>url ='https://python123.io/ws/demo.html'>>&

2020-06-13 21:54:46 221

原创 python网络爬虫基础学习-1

基础爬虫学习,满足数据分析时需要对有关网站爬取以获取数据。网络爬虫一般流程获取网页解析网页提取内容保存数据1.获取网页使用requets库的相关功能对网页发起请求并返回响应1.1 requests介绍1.1.1 requests库的主要方法这些方法对应的HTTP功能如下:实际上,后面6个方法是第一个方法request的特例:例如:requests.request(‘GET’,url) 与 requests.get(url ) 功能一致。上述kwargs13

2020-06-13 21:01:11 189

原创 文件操作

处理文本文件处理txt、doc等选择使用python原始文件处理方法1. 打开文件file_obj =open(file,[mode='r’,buffering=-1,encoding=None,errors=None,newline=None,closefd=True,opener=None])file:文件名,如果不在当前路径,需指出具体路径mode:打开文件的模式,具体见下图encoding:文件编码方式newline:换行符2. 读取文件read([size]) 读出整个文

2020-06-13 18:43:23 132

原创 爬虫-图像批量下载实战

import requestsfrom bs4 import BeautifulSoup import os# 通过图片网页地址,写入到本地def get_image(url,fn): resp =requests.get(url) with open('头像\{}.png'.format(fn),'wb') as f: f.write(resp.content) # 图片要要通过二进制格式写入# 获取网页、网页解析def loan_image(url):

2020-06-07 21:44:42 413

原创 CM资料下载操作

近期需要对系统中的CM影像资料进行下载,数据平台提供的接口只能通过上传apply_id下载,并且文件名也只标注apply_id,希望将下载完成后的文件名根据apply_id转成transport_id等,并最后按dept_name分组。import numpy as npimport pandas as pdimport osimport shutil# 封装成函数def cm_rename(path,match_data): # 后面添加是否考虑按营业部+时间分组? """ p

2020-05-30 10:17:39 203

原创 支持向量机SVM基础理解

定义支持向量机是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器;支持向量机还包括核技巧,使它成为实质上的非线性分类器。支持向量机学习策略是间隔最大化,形式化为一个求解凸二次规划的问题。间隔与支持向量先来看看下面这一组数据的分布,这是一组两种标签的数据,两种标签分别由圆和方块代表。支持向量机的分类方法,是在这组分布中找出一个超平面作为决策边界,将不同类别分开,但能将样本...

2020-05-01 22:19:58 506

原创 机器学习-贝叶斯

1. 基本概念先验概率事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(A),P(B)。条件概率一个事件发生后另一个事件发生的概率。一般的形式为P(A|B)表示B发生的条件下A发生的概率。后验概率事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,即执果求因。西瓜举例:先验概率,就是常识、...

2020-04-23 22:40:50 306

原创 机器学习-线性回归

目录:1.多元线性回归2.Ridge岭回归3.Lasso回归4.Logistic逻辑回归1.线性回归

2020-04-21 22:03:07 233

原创 卡方分箱及代码实现

# 1.卡方分布

2020-04-12 22:59:23 4792 4

原创 模型融合

模型融合是将多种调参完成的模型进行融合 。融合的几种方式简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在x...

2020-04-04 21:17:50 244

原创 建模调参

xgboost

2020-04-01 21:48:16 196

原创 机器学习-决策树

决策树1. 决策树算法核心解决的2个问题1.1 如何选择最优划分的属性使用不纯度划分。衡量纯度可以分信息熵和基尼值。1.1.1 信息熵信息熵(information entropy)是度量不纯度最常用指标。不纯度计算是基于节点来结算,树中的每个节点都会有不纯度。1.1 假设当前节点t中第k类样本所含比例为pkp_kpk​,则信息熵定义为:Ent(t)=−∑k=1cpklog2pkE...

2020-03-29 11:07:06 172

原创 数据预处理及特征工程

异常值处理通过箱线图(或 3-Sigma)删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;以下代码是根据箱线图处理异常值封装的函数:def outliers_proc(data, col_name, scale=3): """ 用于清洗异常值,默认用 box_plot(scale=3)进行清洗 :param data: 接收 pandas 数据格...

2020-03-28 21:52:39 462

原创 EDA

数据情况总揽希望查看数据类型dtypes,唯一值数量unique(),数据个数count,缺失值数isnull().sum(),缺失占比isnull().mean(),数据统计信息describe(),将他们放到一张表中展示,定义如下函数:def data_desc(data): # 数据类型 ty = data.dtypes ty.name = 'dtypes' ...

2020-03-24 13:45:42 220

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除