实际问题解决_夏日麦香的博客-CSDN博客

实际问题解决

关注

关注数：文章数：34 文章阅读量：269852 文章收藏量：593

作者: 夏日麦香

时光之河向无穷奔涌而去，有准备才有幸运，要让自己加倍的好

展开

Python matplotlib绘图 plt.barh或sns.barplot 水平条形图调整顺序逆序排列

使用matplotlib 中的 plt.barh 绘制水平条形图时，数据的排列顺序默认由小到大排列，即数据条由短到长排列展示，如果想让数据条由长到短排列展示，可尝试以下代码。可以看到，数据条按由小到大顺序展示。想让数据条由长到短排列展示，首先将数据逆序排列，可使用切片 .iloc[::-1]1. 使用 plt.bar 绘制条形图。

原创 2024-08-31 16:36:23 · 343 阅读 · 0 评论
Python Selenium 调用网页打印机另存 PDF

网页截图转PDF，但以图片形式保存的pdf在阅读时不太友好。网上搜索文章时，发现可以直接调用网页打印机另存为PDF，下面为核心代码，测试浏览器Chrome。

原创 2024-07-28 20:28:10 · 374 阅读 · 0 评论
Python Selenium 网页长截图/HTML 转 PDF

当一件事情使用各种方法都不得其解时，不如换种思路。比如HTML直接转为PDF，涉及的安装包wkhtmltopdf各种报错各种搜索都无法解决后，那不如网页直接截图为图片格式，况且图片也可以转为PDF~。

转载 2024-04-21 23:45:28 · 221 阅读 · 0 评论
python pandas DataFrame: Shuffle 打乱顺序/洗牌

转载：pandas: Shuffle rows/elements of DataFrame/Seriesnkmk note 这个作者写了很多关于python使用的文章，写得很好，推荐收藏You can randomly shuffle rows of and elements of with the method. There are other ways to shuffle, but using the method is convenient because it does not requi

转载 2024-04-18 21:59:57 · 442 阅读 · 0 评论
python Faker 批量生成数据

print(fake.date_this_decade(before_today=True, after_today=False)) # 本年代中的日期如： datetime.date(2014, 1, 29)print(fake.date_between(start_date=“-30y”, end_date=“today”)) # 日期(可设置限定范围) 如：datetime.date(2014, 8, 17)

转载 2023-12-19 11:07:09 · 318 阅读 · 0 评论
python groupby 用法详解

进行分析，如电商领域将全国的总销售额根据省份进行划分，分析各省销售额的变化情况，社交领域将用户根据画像（性别、年龄）进行细分，研究用户的使用情况和偏好等。如果按照正常的步骤来计算，需要先求得不同公司的平均薪水，然后按照员工和公司的对应关系填充到对应的位置，不用。转换成列表的形式后，可以看到，列表由三个元组组成，每个元组中，第一个元素是组别（这里是按照。在pandas中，实现分组操作的代码很简单，仅需一行代码，在这里，将上面的数据集按照。而言更加灵活，能够传入任意自定义的函数，实现复杂的数据操作。

转载 2023-08-03 16:34:29 · 3148 阅读 · 2 评论
【转】Python快速实现分列转到行

原博客_Python快速实现分列转到行在数据操作中会有将列表转为行的需求，以下是python的处理方法。数据源大致是这样的：数据源已经构造好，咱们开干！import pandas as pd df = pd.read_excel("分列转到行.xlsx",header=None) df.columns = ["年级","姓名"] df结果如下：整个代码很简单df["新列"] = df["姓名"].str.split(";")df["新列"]结果如下：最

转载 2022-05-24 22:26:03 · 3167 阅读 · 0 评论
python 使用set()计算变量交集

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代.

原创 2022-05-13 23:14:19 · 645 阅读 · 0 评论
Hive 行转列(lateral view)

将列表式变量转为列，例如var1 value1 a c1,c2,c3,c2 b b1,b2,b1 将value1拆分转换为列，语句如下：select var1, value2from table1 lateral view explode(split(value1, ",")) adTable as value2 ;转换结果如下：var1 value2 a c1 a c2 a c3 a c

原创 2022-05-12 21:18:43 · 856 阅读 · 0 评论
python 全角转半角

def full_to_half(full_width_string): fullString = str(full_width_string) halfString = "" for schar in fullString: char_code = ord(schar) if char_code == 12288: char_code=32 elif (char_code>=65281 and char.

原创 2022-05-12 20:41:35 · 641 阅读 · 0 评论
使用python进行数据抽样

工作中使用hive进行数据预处理，有时候需要对数据抽样来做一些评估分析。下面记录通过python进行分层随机抽样的过程。使用python连接数据库读取数据请参考：使用python连接数据库import sqlalchemyimport pandas as pdimport numpy as np # 1. 连接hive获取数据def get_hive_data(sql): user_name = "hive引擎地址" hive_engine = sqlalchemy.c

原创 2022-05-08 22:00:16 · 2872 阅读 · 0 评论
使用python连接数据库

import pandas as pdimport sqlalchemyimport pymysqlimport pymssqlimport pyhive# 连接hivedef con_hive(sql): user_name = "hive链接地址" hive_engine = sqlalchemy.create_engine(user_name) data = pd.read_sql(sql, hive_engine) print ("\n数据读取完毕\n.

原创 2022-05-08 20:43:24 · 1556 阅读 · 0 评论
python 数据错位相减，上下两行相减

今天接到一个需求，要求用对数据进行错位相减。感觉写得有点麻烦，如果其他方法，欢迎留言交流数据说明：有客户、消费日期、消费额度求解目标：对于同一个客户，对日期升序排序，如果下一个日期的消费额度大于上一个日期的消费额度，则标记，最终取出第一次发生时对应的较大的日期import pandas as pdimport numpy as npdf = pd.DataFrame({'per...

原创 2020-04-20 23:11:19 · 7069 阅读 · 1 评论
python 使用del和drop方法删除DataFrame的列，使用drop方法一次删除多列

使用del和drop方法删除DataFrame中的列，使用drop方法一次删除多列# 使用del, 一次只能删除一列，不能一次删除多列# 只能使用 del df['密度'], 不能使用 del df[['密度', '含糖率']]del df['密度']# del df[['密度', '含糖率']] 报错# 使用drop，有三种方法：dt = dt.drop(['密度',...

原创 2020-04-19 11:36:18 · 32737 阅读 · 0 评论
python astype(‘category‘), 编码和标签对应，categories 和 code 映射为字典

在一些机器学习算法中，经常要对数据进行编码转换，转换后需要查询标签和编码的对应关系，可以使用以下代码处理。但是注意下面代码使用的是 astype(‘category’)，它和pd.Category(…)是不一样的，具体区别请参考文章https://www.jb51.cc/python/533189.htmlimport pandas as pd# 创建数据集df = pd.Data...

原创 2020-04-18 10:25:12 · 10987 阅读 · 0 评论
python 批量更改变量名（列名字符串替换），读取多个同类型文件合并

# 替换某些列名中的某部分字符串def re_columns(dt, substr, newstr, ls): """ Parameters ---------- dt : datasets substr : str string that will be replaced. newstr : str...

原创 2020-04-16 09:22:44 · 6304 阅读 · 0 评论
python list 内嵌列表转为一维列表

# 只能是内嵌列表，如果改为 a = [[1,2,3],[4,5,6], [7], [8,9] , 10] 则无法实现import itertoolsa = [[1,2,3],[4,5,6], [7], [8,9]]out = list(itertools.chain.from_iterable(a))print(out)# [1, 2, 3, 4, 5, 6, 7, 8, 9]...

原创 2020-04-16 09:01:13 · 1733 阅读 · 0 评论
hadoop与spark搭建及pyspark调用问题

但是后面调用pyspark报错了，因为pyspark默认是3.6.9，Anaconda3用的是python3.7.3，两个python版本不一样造成冲突，Anaconda3里pyspark无法找到python。：系统自带python3.6.5，软件更新升级后变成python3.6.9，与Anaconda3使用的python3.7.3不一致，会导致在Anaconda3里调用pyspark报错。最近趁着有空，在虚拟机里装了Ubuntu18.04系统，然后搭建了 hadoop与spark环境，记录一下。

原创 2020-03-23 14:41:51 · 1128 阅读 · 1 评论
numpy.ravel() 和 numpy.flatten()

转自CSDN博主「Inside_Zhang」，链接：https://blog.csdn.net/lanchunhui/article/details/50354978首先声明两者所要实现的功能是一致的（将多维数组降位一维），两者的区别在于返回拷贝（copy）还是返回视图（view），numpy.flatten()返回一份拷贝，对拷贝所做的修改不会影响（reflects）原始矩阵，而numpy...

转载 2020-02-21 10:01:57 · 212 阅读 · 0 评论
Python 读取csv文件时数字变成科学计数法（含有e）

读取csv时遇到一个长数字（比较长的数字，excel中长度超过16位后，会变成科学计数法显示）转换问题。在csv中正常显示全部数字，没有变成科学计数法，但用pd.read_csv后就变成了科学计数法显示，如下图显示。这是个问题，当然要解决呀呀呀。搜索了许多网页，找到一篇文章可以解决这个问题：https://www.jb51.net/article/164692.htm...

原创 2020-02-16 21:44:56 · 16374 阅读 · 0 评论
python 连接 mysql 数据库出现 keyerror 255 错误

python 连接 mysql 数据库出现 keyerror： 255，字符集相关错误。

原创 2020-02-11 21:17:26 · 2748 阅读 · 2 评论
电脑内存爆满，使用率超过90%

今天突然发现电脑内存爆满，使用率超过97%，但是并没有发现占用内存高的软件，后来网上搜索发现了一个可能解决方法：更新驱动用360驱动大师更新完后，内存恢复正常，下降到14%。...

原创 2020-02-11 18:16:02 · 9370 阅读 · 0 评论
Ptyhon matplotlib 绘图中文乱码不正常显示

参考文章:https://fonttian.blog.csdn.net/article/details/78107421import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport mathfrom mpl_toolkits.mplot3d import Axes3D# 添加下面代码后绘...

原创 2020-02-06 22:13:30 · 287 阅读 · 0 评论
R语言使用merge函数匹配数据（vlookup，join）

数据集中w中的 name = ‘D’ 不显示，数据集中q中的 name = ‘F’ 不显示，只显示公有的name行，并且用q数据集A行匹配了w数据集所有的A行。有多个公共列，在公共列后加上x，y表示数据来源，.x表示来源于数据集w，.y表示来源于数据集q。# all = TRUE 表示选取w, q 数据集的所有行，sort = TRUE，表示按 by 列进行排序，默认升序。6、outer 模式，将两张表的数据汇总，表中原来没有的数据置为空。5、inner 模式匹配，只显示两个数据集公共列中均有的行。

原创 2017-06-10 11:40:36 · 109967 阅读 · 3 评论
SQL 连续任意区间段分组统计

SQL 连续任意区间段分组统计

原创 2017-06-10 12:04:35 · 5197 阅读 · 0 评论
python merge ，suffiex，多个merge连接，后缀无法生效

如果连接的两个表中，没有重复的列名，就使用各自原列名，此时定义的后缀不生效。当有重复列名时，则使用后缀。此处不谈如何使用 pandas.merge，主要谈 merge函数的参数 suffiex。suffiex：用于重叠列的字符串后缀元组，默认为 (‘x', 'y')

原创 2019-06-12 20:21:31 · 6336 阅读 · 2 评论
python 日期转换为指定格式 2019-06-12 形式，并做加减

import datetimeIn [11]: current_date = (datetime.datetime.now()).strftime('%Y-%m-%d');current_dateOut[11]: '2019-06-12'In [12]: current_date_sub_1 = (datetime.datetime.now()+datetime.timedelta(d...

原创 2019-06-12 20:26:55 · 2270 阅读 · 0 评论
《learning python the hard way》习题46 项目骨架搭建问题小结（一）之软件包的安装

在学习《learning python the hard way》的过程中，既痛又快乐。特别是在习题46项目骨架搭建一节，遇到了不少软件包安装的问题。现将我遇到的问题及解决方法总结如下，希望能帮助有需要的朋友。系统：Windows版本：python2.7.9 命令行终端：Windows PowerShell 到https:/...

原创 2015-07-29 21:36:31 · 638 阅读 · 0 评论
Python 学习中遇到的各种问题

O’Reilly出版的Wes McKenny编的《Python for Data Analysis》，采用Anaconda3集成环境1.1 Movielens数据的处理例子,输出前五个用户信息。代码如下：import pandas as pdunames = ['user_id', 'gender', 'age', 'occupationb', 'zip'] users = pd.read_

原创 2015-11-13 21:49:05 · 1566 阅读 · 0 评论
pandas组内排序，并在每个分组内按序打上序号

pandas组内排序，并在每个分组内按序打上序号pandas dataframe 对dep_id组内的salary排序。希望给下面原本只有前三列的dataframe，添加上第四列。等价于sql的row_number()假设我已经建好了仅有前三列的dataframe，数据集命名为 MyData，那么解决方案如下：MyData[‘sort_id’] = MyData[‘salary’].gr...

原创 2019-06-03 22:57:31 · 16795 阅读 · 3 评论
将相同id对应的其他行元素合同到同一个列表中

将相同id对应的其他行元素合同到同一个列表中，使用 tolist()# 数据集如下In [8]: A = [1,2,3,0]In [9]: B = [1,1,2,2]In [10]: ID = [0,0,1,1]In [13]: df = pd.DataFrame(zip(A,B,ID), columns=['A','B','ID'])Out[14]: A B ID0 1...

原创 2019-06-03 23:18:49 · 788 阅读 · 0 评论
Python 编码错误，读取csv 报错：can‘t decode byte 0xba/0xca...invalid start byte

5、更新过程中把anconda关掉，不然更新可能会失败。2、运行过程中如若无法打开国内镜像源，请更换为官方镜像源。突然想到，要不更新下？结果简直不要太美好 ~^o^~1、打开cmd，先运行第一行，运行完毕后再运行第二行。试了网上的各种方法后，依然无法解决。4、替换方法请自行百度。在读取 csv 时，

原创 2019-06-10 22:01:33 · 1097 阅读 · 1 评论
python pandas 分组切割使用 pd.cut

【代码】python pandas 分组切割使用 pd.cut。

原创 2019-08-09 10:10:07 · 4737 阅读 · 1 评论
R语言读取数据、拆分数据，并保存到相应文件夹

R语言读取数据、拆分数据，并保存到相应文件夹

原创 2017-06-10 10:54:30 · 16985 阅读 · 6 评论

实际问题解决

作者: 夏日麦香

Python matplotlib绘图 plt.barh或sns.barplot 水平条形图调整顺序逆序排列

Python Selenium 调用网页打印机另存 PDF

Python Selenium 网页长截图/HTML 转 PDF

python pandas DataFrame: Shuffle 打乱顺序/洗牌

python Faker 批量生成数据

python groupby 用法详解

【转】Python快速实现分列转到行

python 使用set()计算变量交集

Hive 行转列(lateral view)

python 全角转半角

使用python进行数据抽样

使用python连接数据库

python 数据错位相减，上下两行相减

python 使用del和drop方法删除DataFrame的列，使用drop方法一次删除多列

python astype(‘category‘), 编码和标签对应，categories 和 code 映射为字典

python 批量更改变量名（列名字符串替换），读取多个同类型文件合并

python list 内嵌列表转为一维列表

hadoop与spark搭建及pyspark调用问题

numpy.ravel() 和 numpy.flatten()

Python 读取csv文件时数字变成科学计数法（含有e）

python 连接 mysql 数据库出现 keyerror 255 错误

电脑内存爆满，使用率超过90%

Ptyhon matplotlib 绘图 中文乱码 不正常显示

R语言使用merge函数匹配数据（vlookup，join）

SQL 连续任意区间段分组统计

python merge ，suffiex，多个merge连接，后缀无法生效

python 日期转换为指定格式 2019-06-12 形式，并做加减

《learning python the hard way》习题46 项目骨架搭建 问题小结（一）之软件包的安装

Python 学习中遇到的各种问题

pandas组内排序，并在每个分组内按序打上序号

将相同id对应的其他行元素合同到同一个列表中

Python 编码错误，读取csv 报错：can‘t decode byte 0xba/0xca...invalid start byte

python pandas 分组切割 使用 pd.cut

R语言读取数据、拆分数据，并保存到相应文件夹

Ptyhon matplotlib 绘图中文乱码不正常显示

《learning python the hard way》习题46 项目骨架搭建问题小结（一）之软件包的安装

python pandas 分组切割使用 pd.cut