夏日麦香-CSDN博客

原创 Python matplotlib绘图 plt.barh或sns.barplot 水平条形图调整顺序逆序排列

使用matplotlib 中的 plt.barh 绘制水平条形图时，数据的排列顺序默认由小到大排列，即数据条由短到长排列展示，如果想让数据条由长到短排列展示，可尝试以下代码。可以看到，数据条按由小到大顺序展示。想让数据条由长到短排列展示，首先将数据逆序排列，可使用切片 .iloc[::-1]1. 使用 plt.bar 绘制条形图。

2024-08-31 16:36:23 346

转载转载：Spark启动时的master参数以及Spark的部署方式

作者：geekpy但是这个master到底是何含义呢？文档说是设定master url，但是啥是master url呢？说到这就必须先要了解下Spark的部署方式了。我们要部署Spark这套计算框架，有多种方式，可以部署到一台计算机，也可以是多台(cluster)。我们要去计算数据，就必须要有计算机帮我们计算，当然计算机越多(集群规模越大)，我们的计算力就越强。但有时候我们只想在本机做个试验或者小型的计算，因此直接部署在单机上也是可以的。Spark部署方式可以用如下图形展示：Spark部署方式。

2024-08-03 11:07:23 95

原创 Python Selenium 调用网页打印机另存 PDF

网页截图转PDF，但以图片形式保存的pdf在阅读时不太友好。网上搜索文章时，发现可以直接调用网页打印机另存为PDF，下面为核心代码，测试浏览器Chrome。

2024-07-28 20:28:10 388

转载 Python Selenium 网页长截图/HTML 转 PDF

当一件事情使用各种方法都不得其解时，不如换种思路。比如HTML直接转为PDF，涉及的安装包wkhtmltopdf各种报错各种搜索都无法解决后，那不如网页直接截图为图片格式，况且图片也可以转为PDF~。

2024-04-21 23:45:28 221

转载 python pandas DataFrame: Shuffle 打乱顺序/洗牌

转载：pandas: Shuffle rows/elements of DataFrame/Seriesnkmk note 这个作者写了很多关于python使用的文章，写得很好，推荐收藏You can randomly shuffle rows of and elements of with the method. There are other ways to shuffle, but using the method is convenient because it does not requi

2024-04-18 21:59:57 444

转载 python Faker 批量生成数据

print(fake.date_this_decade(before_today=True, after_today=False)) # 本年代中的日期如： datetime.date(2014, 1, 29)print(fake.date_between(start_date=“-30y”, end_date=“today”)) # 日期(可设置限定范围) 如：datetime.date(2014, 8, 17)

2023-12-19 11:07:09 319

转载 python groupby 用法详解

进行分析，如电商领域将全国的总销售额根据省份进行划分，分析各省销售额的变化情况，社交领域将用户根据画像（性别、年龄）进行细分，研究用户的使用情况和偏好等。如果按照正常的步骤来计算，需要先求得不同公司的平均薪水，然后按照员工和公司的对应关系填充到对应的位置，不用。转换成列表的形式后，可以看到，列表由三个元组组成，每个元组中，第一个元素是组别（这里是按照。在pandas中，实现分组操作的代码很简单，仅需一行代码，在这里，将上面的数据集按照。而言更加灵活，能够传入任意自定义的函数，实现复杂的数据操作。

2023-08-03 16:34:29 3167 2

转载【转】Python快速实现分列转到行

原博客_Python快速实现分列转到行在数据操作中会有将列表转为行的需求，以下是python的处理方法。数据源大致是这样的：数据源已经构造好，咱们开干！import pandas as pd df = pd.read_excel("分列转到行.xlsx",header=None) df.columns = ["年级","姓名"] df结果如下：整个代码很简单df["新列"] = df["姓名"].str.split(";")df["新列"]结果如下：最

2022-05-24 22:26:03 3167

原创 python 使用set()计算变量交集

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代.

2022-05-13 23:14:19 645

原创 Hive 行转列(lateral view)

将列表式变量转为列，例如var1 value1 a c1,c2,c3,c2 b b1,b2,b1 将value1拆分转换为列，语句如下：select var1, value2from table1 lateral view explode(split(value1, ",")) adTable as value2 ;转换结果如下：var1 value2 a c1 a c2 a c3 a c

2022-05-12 21:18:43 856

原创 python 全角转半角

def full_to_half(full_width_string): fullString = str(full_width_string) halfString = "" for schar in fullString: char_code = ord(schar) if char_code == 12288: char_code=32 elif (char_code>=65281 and char.

2022-05-12 20:41:35 641

原创使用python进行数据抽样

工作中使用hive进行数据预处理，有时候需要对数据抽样来做一些评估分析。下面记录通过python进行分层随机抽样的过程。使用python连接数据库读取数据请参考：使用python连接数据库import sqlalchemyimport pandas as pdimport numpy as np # 1. 连接hive获取数据def get_hive_data(sql): user_name = "hive引擎地址" hive_engine = sqlalchemy.c

2022-05-08 22:00:16 2872

原创使用python连接数据库

import pandas as pdimport sqlalchemyimport pymysqlimport pymssqlimport pyhive# 连接hivedef con_hive(sql): user_name = "hive链接地址" hive_engine = sqlalchemy.create_engine(user_name) data = pd.read_sql(sql, hive_engine) print ("\n数据读取完毕\n.

2022-05-08 20:43:24 1556

原创 python 数据错位相减，上下两行相减

今天接到一个需求，要求用对数据进行错位相减。感觉写得有点麻烦，如果其他方法，欢迎留言交流数据说明：有客户、消费日期、消费额度求解目标：对于同一个客户，对日期升序排序，如果下一个日期的消费额度大于上一个日期的消费额度，则标记，最终取出第一次发生时对应的较大的日期import pandas as pdimport numpy as npdf = pd.DataFrame({'per...

2020-04-20 23:11:19 7072 1

原创 python 使用del和drop方法删除DataFrame的列，使用drop方法一次删除多列

使用del和drop方法删除DataFrame中的列，使用drop方法一次删除多列# 使用del, 一次只能删除一列，不能一次删除多列# 只能使用 del df['密度'], 不能使用 del df[['密度', '含糖率']]del df['密度']# del df[['密度', '含糖率']] 报错# 使用drop，有三种方法：dt = dt.drop(['密度',...

2020-04-19 11:36:18 32757

原创 python astype(‘category‘), 编码和标签对应，categories 和 code 映射为字典

在一些机器学习算法中，经常要对数据进行编码转换，转换后需要查询标签和编码的对应关系，可以使用以下代码处理。但是注意下面代码使用的是 astype(‘category’)，它和pd.Category(…)是不一样的，具体区别请参考文章https://www.jb51.cc/python/533189.htmlimport pandas as pd# 创建数据集df = pd.Data...

2020-04-18 10:25:12 11014

原创 python 批量更改变量名（列名字符串替换），读取多个同类型文件合并

# 替换某些列名中的某部分字符串def re_columns(dt, substr, newstr, ls): """ Parameters ---------- dt : datasets substr : str string that will be replaced. newstr : str...

2020-04-16 09:22:44 6306

原创 python list 内嵌列表转为一维列表

# 只能是内嵌列表，如果改为 a = [[1,2,3],[4,5,6], [7], [8,9] , 10] 则无法实现import itertoolsa = [[1,2,3],[4,5,6], [7], [8,9]]out = list(itertools.chain.from_iterable(a))print(out)# [1, 2, 3, 4, 5, 6, 7, 8, 9]...

2020-04-16 09:01:13 1734

原创 hadoop与spark搭建及pyspark调用问题

但是后面调用pyspark报错了，因为pyspark默认是3.6.9，Anaconda3用的是python3.7.3，两个python版本不一样造成冲突，Anaconda3里pyspark无法找到python。：系统自带python3.6.5，软件更新升级后变成python3.6.9，与Anaconda3使用的python3.7.3不一致，会导致在Anaconda3里调用pyspark报错。最近趁着有空，在虚拟机里装了Ubuntu18.04系统，然后搭建了 hadoop与spark环境，记录一下。

2020-03-23 14:41:51 1128 1

转载 numpy.ravel() 和 numpy.flatten()

转自CSDN博主「Inside_Zhang」，链接：https://blog.csdn.net/lanchunhui/article/details/50354978首先声明两者所要实现的功能是一致的（将多维数组降位一维），两者的区别在于返回拷贝（copy）还是返回视图（view），numpy.flatten()返回一份拷贝，对拷贝所做的修改不会影响（reflects）原始矩阵，而numpy...

2020-02-21 10:01:57 212

原创使用Python发送邮件(图片、表格、附件) 系列三：发送工作报表之透视表自动刷新数据

当然，在实际工作中，要处理的任务比这个要更复杂一些，比如连接数据库，多级透视表，多张报表和图表等。2、在第一份透视表中勾选【打开自动更新】选项（可百度），当透视表的原数据发生变化，打开透视表数据会自动刷新。注意：将透视表和数据源放到指定目录中，两个文件的格式名字不要有变动，每天用新的数据源将旧数据源覆盖即可。使用Python发送邮件(图片、表格、附件) 系列一：如何发送图片、表格等的全代码。

2020-02-16 23:13:20 1882

原创 Python 读取csv文件时数字变成科学计数法（含有e）

读取csv时遇到一个长数字（比较长的数字，excel中长度超过16位后，会变成科学计数法显示）转换问题。在csv中正常显示全部数字，没有变成科学计数法，但用pd.read_csv后就变成了科学计数法显示，如下图显示。这是个问题，当然要解决呀呀呀。搜索了许多网页，找到一篇文章可以解决这个问题：https://www.jb51.net/article/164692.htm...

2020-02-16 21:44:56 16387

原创使用Python发送邮件(图片、表格、附件) 系列一：如何发送图片、表格等的全代码

本文中Part 0 + 中间任何一Part 或组合 + Part 6, 即可将内容正常发送到QQ邮箱。本文使用个人电脑和个人邮箱，对代码进行了测试，可以正常运行。使用Python发送邮件(图片、表格、附件) 系列三：发送工作报表之透视表自动刷新数据。使用Python发送邮件(图片、表格、附件) 系列二：同时发送图片和附件实际案例。

2020-02-14 23:50:09 3386 3

原创使用Python发送邮件(图片、表格、附件) 系列二：同时发送图片和附件实际案例

使用Python发送邮件(图片、表格、附件) 系列三：发送工作报表之透视表自动刷新数据。使用Python发送邮件(图片、表格、附件) 系列一：如何发送图片、表格等的全代码。本文是系列一的实际应用案例，同时发送图片和附件实际案例。

2020-02-14 23:49:12 3318

原创 python 连接 mysql 数据库出现 keyerror 255 错误

python 连接 mysql 数据库出现 keyerror： 255，字符集相关错误。

2020-02-11 21:17:26 2751 2

原创电脑内存爆满，使用率超过90%

今天突然发现电脑内存爆满，使用率超过97%，但是并没有发现占用内存高的软件，后来网上搜索发现了一个可能解决方法：更新驱动用360驱动大师更新完后，内存恢复正常，下降到14%。...

2020-02-11 18:16:02 9377

原创 Ptyhon matplotlib 绘图中文乱码不正常显示

参考文章:https://fonttian.blog.csdn.net/article/details/78107421import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport mathfrom mpl_toolkits.mplot3d import Axes3D# 添加下面代码后绘...

2020-02-06 22:13:30 287

原创 python pandas 分组切割使用 pd.cut

【代码】python pandas 分组切割使用 pd.cut。

2019-08-09 10:10:07 4738 1

原创 python 日期转换为指定格式 2019-06-12 形式，并做加减

import datetimeIn [11]: current_date = (datetime.datetime.now()).strftime('%Y-%m-%d');current_dateOut[11]: '2019-06-12'In [12]: current_date_sub_1 = (datetime.datetime.now()+datetime.timedelta(d...

2019-06-12 20:26:55 2270

原创 python merge ，suffiex，多个merge连接，后缀无法生效

如果连接的两个表中，没有重复的列名，就使用各自原列名，此时定义的后缀不生效。当有重复列名时，则使用后缀。此处不谈如何使用 pandas.merge，主要谈 merge函数的参数 suffiex。suffiex：用于重叠列的字符串后缀元组，默认为 (‘x', 'y')

2019-06-12 20:21:31 6350 2

原创【项目03】数据清洗和结论研究

① 按照学校（教育经历字段）统计粉丝数（‘关注者’）、关注人数（‘关注’），并筛选出关注人数TOP20的学校，不要求创建函数。① 按照地域统计，知友数量、知友密度（知友数量/城市常住人口），不要求创建函数。读取数据，进行数据清洗，按照地域和学校统计知友的分布情况，做可视化图表。③ 散点图中，标记出平均关注人数（x参考线），平均粉丝数（y参考线）② 通过散点图 → 横坐标为关注人数，纵坐标为粉丝数，做图表可视化。② 知友数量，知友密度，标准化处理，取值0-100，要求创建函数。1、数据清洗 - 去除空值。

2019-06-12 19:46:49 882 1

原创 Python 编码错误，读取csv 报错：can‘t decode byte 0xba/0xca...invalid start byte

5、更新过程中把anconda关掉，不然更新可能会失败。2、运行过程中如若无法打开国内镜像源，请更换为官方镜像源。突然想到，要不更新下？结果简直不要太美好 ~^o^~1、打开cmd，先运行第一行，运行完毕后再运行第二行。试了网上的各种方法后，依然无法解决。4、替换方法请自行百度。在读取 csv 时，

2019-06-10 22:01:33 1098 1

原创【项目02】基于Python的算法函数创建

【项目02】基于Python的算法函数创建作业要求：根据不同题目，完成代码书写并成功运行# 题目1：有1、2、3、4个数字，能组成多少个互不相同且无重复数字的两位数？都是多少？# 该题目不用创建函数import numpy as npimport pandas as pd# 方法1from itertools import productnum = [1, ...

2019-06-09 11:18:34 202

原创【项目01】数据加载及存储

【项目01】数据加载及存储要求：1、成功读取“store_data.csv”文件2、解析数据，存成列表字典格式：[{‘var1’:value1,‘var2’:value2,‘var3’:values,…},…,{}]3、数据清洗：① comment，price两个字段清洗成数字② 清除字段缺失的数据③ commentlist拆分成三个字段，并且清洗成数字4、结果存为.pkl文件...

2019-06-05 00:00:21 227

原创将相同id对应的其他行元素合同到同一个列表中

将相同id对应的其他行元素合同到同一个列表中，使用 tolist()# 数据集如下In [8]: A = [1,2,3,0]In [9]: B = [1,1,2,2]In [10]: ID = [0,0,1,1]In [13]: df = pd.DataFrame(zip(A,B,ID), columns=['A','B','ID'])Out[14]: A B ID0 1...

2019-06-03 23:18:49 788

原创 pandas组内排序，并在每个分组内按序打上序号

pandas组内排序，并在每个分组内按序打上序号pandas dataframe 对dep_id组内的salary排序。希望给下面原本只有前三列的dataframe，添加上第四列。等价于sql的row_number()假设我已经建好了仅有前三列的dataframe，数据集命名为 MyData，那么解决方案如下：MyData[‘sort_id’] = MyData[‘salary’].gr...

2019-06-03 22:57:31 16810 3

原创 SQL 连续任意区间段分组统计

SQL 连续任意区间段分组统计

2017-06-10 12:04:35 5197

原创 R语言使用merge函数匹配数据（vlookup，join）

数据集中w中的 name = ‘D’ 不显示，数据集中q中的 name = ‘F’ 不显示，只显示公有的name行，并且用q数据集A行匹配了w数据集所有的A行。有多个公共列，在公共列后加上x，y表示数据来源，.x表示来源于数据集w，.y表示来源于数据集q。# all = TRUE 表示选取w, q 数据集的所有行，sort = TRUE，表示按 by 列进行排序，默认升序。6、outer 模式，将两张表的数据汇总，表中原来没有的数据置为空。5、inner 模式匹配，只显示两个数据集公共列中均有的行。

2017-06-10 11:40:36 110011 3

原创 R语言读取数据、拆分数据，并保存到相应文件夹

R语言读取数据、拆分数据，并保存到相应文件夹

2017-06-10 10:54:30 16989 6

原创推荐系统实战初学之路笔记（1）--推荐系统基本概念

推荐系统基本概念在此介绍的推荐系统有一、协同过滤推荐系统（CollaborativeFiltering, CF）基本思想：如果用户在过去有相同的偏好，那么他们在未来也有相同的偏好。解释：用户：不是指用户自己，而是多个用户时间：基于用户过去的偏好，计算两个用户之间的偏...

2016-04-16 00:09:27 1284

空空如也

空空如也