自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (2)
  • 收藏
  • 关注

原创 python实现去除图片水印

#!/usr/bin/env python# -*- coding:utf-8 -*-# 运行环境# Windows10,python3.8# 需要安装的库# pip install paddlepaddle -i https://mirrors.aliyun.com/pypi/simple/# pip install paddleocr -i https://mirrors.aliyun.com/pypi/simple/# pip install cv2 -i https://mirr.

2022-05-05 18:29:15 6667 6

原创 python实现广东省考实时报名人数爬取

话不多说,直接上代码#!/usr/bin/env python# -*- coding:utf-8 -*-import osimport timeimport jsonimport mathimport randomimport requestsimport pandas as pdclass GDSK: """广东省考报名人数实时爬取""" def __init__(self): self.url = 'https://ggfw.gdhrss.

2021-12-02 15:49:09 1609

原创 Python实现合并某路径下的所有csv文件,并保存为excel

Python实现合并某路径下的所有csv文件,并保存为excel工作中偶尔遇到,同样字段和格式的若干个csv文件,将其复制到同一个excel变的场景,以下是实现的代码:import osimport chardetimport pandas as pdclass UnionFiles: """一个可以合并文件的类""" @classmethod def get_coding(cls, filename): """获取文件的编码格式"""

2020-11-18 14:25:18 705

原创 Python selenium点击失效问题

相信大家在用selenium自动化点击的时候,经常遇到点击不成功的情况,可以改成如下代码:from selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECresult = WebDriverWait(driver, 20).until(E

2020-10-21 16:42:38 2514 4

原创 CentOS7 没有pip,如何安装

首先安装epel扩展源:sudo yum -y install epel-release然后再安装pip,这个环节可能有点久:sudo yum -y install python-pip

2020-09-02 15:51:19 552

原创 Python实现输入字符串,返回其任意排列组合

在脉脉上看到的一道算法题,要求如下图:以下是用Python实现这一算法:def str_rank_combination(s=""): """输入一个字符串,返回一个由这些字符组成的排列组合(递归思想)""" if len(s) <=1: return [s] else: str_list = [] for i in range(len(s)): for tmp_str in str_rank

2020-07-01 17:47:54 2175

转载 数据分析流程与方法论

估计很多人都听过数据分析,但是真正做起来却不是那么一回事了。要么胡子眉毛一把抓,要么无从下手。这说明缺少理论知识的支持,那么本文就将盘点一下数据分析常用的方法论和思路,作为数据分析入门的基础。数据分析的流程在介绍数据分析方法论和思路之前,我们还是先不厌其烦地看一下数据分析的流程,简单来说分为以下六个步骤:1、明确分析的目的,提出问题。只有弄清楚了分析的目的是什么,才能准确定位分析因子,提出有价值的问题,提供清晰的指引方向。2、数据采集。收集原始数据,数据来源可能是丰富多样的,一般有数据库、互

2020-06-12 15:56:04 737

原创 Mysql字符型数字比较问题

在Mysql数值型的数值和字符串类型的数值,界限是模糊的,比如:字符型的 '1' 和数值型的 1 是相等的

2020-06-04 15:54:03 241

原创 Hive和Presto行转列、列转行

1、行转列数据源:要实现的效果:Hive:collect_set转为数组并去重,concat_ws将数组用逗号间隔连接成字符串select user_id , concat_ws(',', collect_set(order_id)) as order_idsfrom tmp.tmp_row_to_colwhere 1 = 1group by user_id...

2020-04-24 18:50:50 3666

原创 Python用%占位,不指定占位个数

在工作过程中,遇到过这样的场景,就是一个长字符串里面有若干个%s占位,后面需要把这些占位填充成想要的字符串,下面模拟这一场景:li = [(1, 'a'), (2, 'b'), (3, 'c')] # 该列表可能任意长度arg = tuple(i[1] for i in li) # %百分号后面跟着的是一个元组print(arg, type(arg))str1 = '%s %s...

2020-01-07 13:49:22 499

原创 Python中Package的调用,如需调用__main__.py,必须在__int__.py中加入from .__main__ import *

下面举个例子:假设 test_main_py.py 需要调用Package test_main,如需调用__main__.py,必须在__int__.py中加入from .__main__ import *test_main_py.pyimport osimport sys_path = os.path.dirname(__file__)_main_path = '%s...

2019-12-30 11:33:45 1682

转载 GitHub高级搜索

参考链接:https://www.cnblogs.com/catluo/p/11728554.html 明确搜索仓库标题、仓库描述、README 1.只想查找仓库名称包含XX的仓库。语法:  in:name关键词2.查找描述的内容  in:descripton关键词3.查README文件包含特定关键词  in:readme关键词 明确搜索 star、fo...

2019-12-27 17:05:23 124

原创 Git上传本地文件到GitHub

$ git add .$ git commit -m "描述xxx"$ git push origin master如果只是上传某个文件,则第一行英文句号改为该文件名(需要带后缀)至于怎么配置git,可参考大神:https://blog.csdn.net/Hanani_Jia/article/details/77950594大家按照该教程,其中有两处地方可能会有问题:获...

2019-12-27 16:29:46 92

原创 greatest和least函数,实现多列取最大、最小值

select greatest(1, 2, 3, 4) ; 结果:4select least(1, 2, 3, 4) ; 结果:1select greatest(1, 2, null, 3, 4) ; 结果:空select least(1, 2, null, 3, 4) ; 结果:空Hive和Presto通用,值得注意的是,用这两个函数时,各列不能存在null值,也最好都...

2019-12-27 14:18:14 3913

原创 row_number、rank、dense_rank窗口函数

row_numberrow_number() over(partititon by col1 order by col2) as rank_num1结果:1,2,3,4,5rankrank() over(partititon by col1 order by col2) as rank_num2结果:1,2,2,4,5dense_rankdense_rank() ove...

2019-12-27 14:01:05 122

原创 Presto、Hive、Mysql出现单引号

-- 1、方式一select country_nmfrom dw_pub_country_tdwhere country_nm = 'Lao People''s Democratic Republic'-- 2、方式二select country_nmfrom dw_pub_country_tdwhere country_nm = "Lao People's Democratic...

2019-12-27 11:29:09 2212 2

原创 Mysql实现row_number(partition by)窗口函数

1、实现row_number()select user_nm , login_time , @row_num := @row_num + 1 as rank_numfrom ( select 'zhang' as user_nm, '2019-01-03 12:30:20' as login_time union all select 'zhang' as ...

2019-12-27 10:45:50 1909

原创 Hive sql实现查询连续n天登录的用户

用个排序的窗口函数即可实现:select distinct user_idfrom ( select user_id , continue_date , count(login_date) as continue_day_cnt from ( select user_id , login_date ...

2019-12-26 18:03:46 3353 3

原创 理解python生成器yield

看一个例子:def get_square(n): for i in range(n): yield pow(i, 2)a = get_square(10)print(a)for i in a: print(i, end=', ')print('\n再次打印')for i in a: print(i, end=', ')输出结果:&...

2019-12-26 16:25:37 109

原创 windows暂停cmd命令行脚本

Ctrl+C可中断脚本Ctrl+S可暂停脚本,再按一次继续执行

2019-12-26 16:02:19 4821

Python学习思维导图

python学习核心知识,思维导图,让自己的python知识系统化

2018-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除