![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
垃圾的心路历程
黄黄黄黄黄66
这个作者很懒,什么都没留下…
展开
-
各省政府工作报告词频统计+数据处理
背景是这样的,需要统计各省各年的政府工作报告中关于能源环境的词频,以论证该省对能源环境的重视程度。工作报告格式均为txt,txt文档前四位需为年份数字(便于后续统计);文件路径为’./XX省/2020年工作报告.txt’。输出为excel格式如下:province20002001…2021湖南省关于能源的词频………河北省关于能源的词频………XX省……………………这里需要用到以下几个包:# 产生路径,用于遍历impo原创 2021-09-29 10:38:17 · 661 阅读 · 0 评论 -
2022转转秋招数据分析sql(2)连续签到天数
计算连续签到的天数!题目信息如下:table_name:t_signcolumns:id–iduid–用户idsign_date–签到日期sign_flag–今日是否签到:0–未签到,1–已签到输出信息如下:输出截至’2021-08-06’当前每个用户已经连续签到的天数,并按照天数降序排列。输出uid,days# 思路:首先,选取出所有的未签到日期;然后,对每个用户的未签到日期进行降序排列,此时每个用户的第一条信息则为该用户最后一次未签到日期,此日期后该用户均为连续签到;最后,计算该日原创 2021-09-19 11:49:21 · 546 阅读 · 0 评论 -
2022转转秋招数据分析sql(1)商品排名前三
查找每个城市商品利润前三的商品及其信息!题目信息如下:table_name:t_ordercolumns:city_name–城市名称order_id–订单号goods_code–商品编码goods_name–商品名称order_status–订单状态:0–未完成,1–已完成product_price–商品金额product_pay_price–实收金额cost_price–商品成本输出信息如下:输出各城市利润额排名前三的商品,并输出对应的订单数与利润率利润率=成本/实收(题目里原创 2021-09-19 10:52:41 · 750 阅读 · 0 评论 -
2022b站秋招sql题(1)
题目:你有一张table_a,需要计算2021年1月1日~6月30日各个内容分区前10%的up主明细填入table_btabel_a如下tid(内容分区)up_idvv(单日播放量)log_date(日期)游戏111120200101游戏132420200102游戏211320200101生活511220200101table_btid(内容分区)up_idvv(累计播放量)vv_rate(占分区播放量比例)原创 2021-08-27 10:16:36 · 510 阅读 · 0 评论 -
2022京东秋招数据分析(最小战力)
简单说一下题目:打boss,每个boss有两个属性。第一个属性为战胜该boss所需要的最低战力,即你当前的战力大于等于该属性即可战胜;第二个属性为战胜该boss后你战力的提升值。有n个boss,你可以选择挑战boss的先后顺序,求战胜所有boss所需的战力值。import sysinput_n=sys.stdin.readline().strip(' ') # 读取第一行ninput_boss_info=list() # 建立初始listn=0 # 初始化读取行数# 逐行读取while int原创 2021-09-11 21:45:21 · 202 阅读 · 0 评论 -
2022携程秋招python题(航班排序)
排序题,要求输入输出如下输入要求:输入第一行为整数n,代表有n条结果,要求n大于0小于400第二行"NLXY299 1561 02:11"中"NLXY299 "代表航班编号(长度为7的字符串),"1561"代表金额([500,2000]整数),"02:11"代表时间(HH:MM),中间用空格间隔。输出要求:输出2n行,1~n行为按价格从低到高,输出顺序为金额、时间、航班编号;n+1~2n行为按起飞时间,输出顺序为时间、金额、航班编号。另:编译器环境不包含任何包,pandas、numpy均无。原创 2021-09-10 10:10:12 · 456 阅读 · 3 评论 -
关于GDP的ARIMA模型
这是一个时间序列课程论文项目做了个arima数据来源是国家统计局的gdp数据可自行下载import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport statsmodels.api as smfrom statsmodels.tsa.arima_model import ARMAfrom statsmodels.tsa.arima_model import ARIMAfrom statsmodels.g原创 2021-08-06 15:06:59 · 5574 阅读 · 2 评论 -
记一次数据预处理(多变量时间序列处理)
俗话说的好数据预处理真是要花费70%的时间,这次的数据有40多w条,原来是卫星数据,老师已经处理成csv了,减少了很多工作量。数据是这样的,时间线补全,多个变量。citycode为城市代码首先,为数据分类,按城市、时间排序# 数据分类# 按城市排序,按时间排序others_var.sort_values(by=['citycode','year','month','day','hour'], ascending=True,inplace=True)查看各城市样本点个数原创 2021-04-11 10:41:59 · 1125 阅读 · 0 评论 -
样本熵的计算与可视化 python
样本熵的计算包和原理见下链接:# 计算样本熵 https://sampen.readthedocs.io/en/stable/#with-tox# 样本熵的解释 https://www.zhihu.com/question/266285555直接上可视化(我看了很多论文的图,都画这样)from sampen import sampen2def sample_entropy(IImfs): # 计算样本熵 m=1、2, r=0.1、0.2 sampen=[] fo原创 2021-04-08 22:09:22 · 4685 阅读 · 23 评论 -
CEEMDAN分解及其可视化 python
CEEMDAN算法网上已经有很多了,原理自行百度吧,大多都是使用pyEMD包进行操作,本文也是使用此包:https://pypi.org/project/pyemd/本文着重讲可视化,因为其自带的可视化不怎么好看。废话不多说,上代码。from PyEMD import CEEMDAN# tips:记得设置全局变量 IImfs=[] def ceemdan_decompose(data): ceemdan = CEEMDAN() ceemdan.ceemdan(da原创 2021-04-08 22:04:08 · 15143 阅读 · 68 评论 -
excel多列时间转化为timestamp python
excel多列时间转化为timestamp我们在将excel导入到python中时候,你的excel中的时间可能会有许多种,例如下面这种将日期和小时分开了:这里就这个问题提供一种思路:首先,将日期转化为Timestamp;然后,将时间转化为array,再转化为Timedelta;最后,可直接相加。代码如下:import pandas as pdimport numpy as npimport datetimedef exceltime_to_pytime(data):# 将e原创 2021-04-08 21:46:55 · 958 阅读 · 2 评论