python数据分析
文章平均质量分 53
pingzishinee
这个作者很懒,什么都没留下…
展开
-
自定义背景画词云图(中文)
2)生成一个top30的词频表 word_top_frequency.csv,能看到前30的词及词频。1)生成一张自定义背景(ciyun_backgroup2.png)的词云图片;3.网上下载个停用词词典,如 ChineseStopWords.txt。1.下载中文字体SimHei.ttf,并放到平台的font目录下。对csv文件里面某列所有字符串画词云图(中文的字符)文字打码了,大概可以看到,效果不错。4.Pillow升级到8版本以上。2.网上找个词云背景图下载下。环境:python3。原创 2023-10-09 20:37:57 · 319 阅读 · 0 评论 -
python import路径问题解决
python import路径问题解决背景:utils包和test包同一路径级别下,test包下需要import utils下的类等…如何用,直接上code:import os,sysBASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))sys.path.append(BASE_DIR)...原创 2022-05-31 16:05:30 · 405 阅读 · 0 评论 -
python小知识点速查 string dict jsonstring bytes 编码转换等
文章目录string转dictstring正常string存在不可打印字符dict转stringdict转 json stringstring转bytes字节流gbk编码转utf-8编码环境背景:python3string转dictstring正常body_str = '{"age": 13, "name": "kk"}'body_dict = eval(body_str)string存在不可打印字符body_str = ''.join(x for x in body_str if x.is原创 2021-09-10 19:27:19 · 229 阅读 · 0 评论 -
python3 中文乱码 UnicodeEncodeError: ‘latin-1‘ codec can‘t encode characters
报错#!/usr/bin/python3# -*- coding: utf-8 -*-str_1 = '这是中文' # strprint(str_1)报错:UnicodeEncodeError: ‘latin-1’ codec can’t encode characters in position 0-3: ordinal not in range(256)解决方法str_2 = str_1.encode(“utf-8”).decode(“latin1”)str_1 = '这是中文'原创 2021-07-11 19:21:41 · 29310 阅读 · 0 评论 -
python 获取昨天凌点的时间戳 获取当天日期、昨天日期
day_time=int(time.mktime(datetime.date.today().timetuple())) - 86400print(day_time)输出:1623168000对应的时间:2021-06-09 00:00:00今天时间:2021-06-10原创 2021-06-10 14:51:18 · 750 阅读 · 0 评论 -
python 参数值等于None怎么用
def test(query, m=None): """ m: string """ # 看了下,一般都这样写:如果is None时候初始化下 if m is None: m = "" return query + mif __name__ == "__main__": # 既支持这样 query = "辛弃疾" print(test(query)) # 也支持这样 query = "辛弃疾原创 2021-05-28 16:09:55 · 2093 阅读 · 0 评论 -
python打日志 logging
import logging#设置日志输出格式 asctime:时间, filename:文件名, lineno:行号, # levelname:日志级别, message:日志内容 #datemt=%a星期 %d日期 %b月份 %Y年份 %H:%M:%S时间 logging.basicConfig( level="DEBUG", #设置数据输出级别 filename='xxx.log', #设置日志输出文件 format='%原创 2021-05-14 15:16:18 · 229 阅读 · 2 评论 -
python list转string、.join() 以及常用代码:整合数据:整合同一用户/同一班级下的数据
list是列表,其特点是不定长,所以可以list.append随时增加,也可以insert插入。用哪个函数:"".join()",".join()…待续…原创 2021-04-18 23:40:34 · 413 阅读 · 0 评论 -
Mysql如何建索引
给表正确合理地设计索引可以提升数据查询速度。先看这个。累了,等脑子转的动时候再来补充。原创 2021-03-31 20:09:24 · 141 阅读 · 0 评论 -
python for line in sys.stdin读文件,按行处理
#eg. demo.pyfor line in sys.stdin: line = line.strip() arr = line.split(',', 2) 调用命令按行读文件:cat *.txt | python demo.py原创 2021-03-29 20:29:34 · 5795 阅读 · 1 评论 -
pymysql.err.OperationalError: (5000, ‘sql decompose ret[-1] error‘)问题
分布式数据库sql语句写对没?!原创 2021-03-29 00:44:35 · 1804 阅读 · 1 评论 -
非常好理解的python re正则表达式入手
文章目录1.目标2.实现3.学习直接写个例子,来入手正则。1.目标目标1:有一行字符串,去掉其中的非中文字符实现1:keep_chinese()函数目标2:有一行字符串,去掉其中的非中文、非英文、非数字字符实现2:keep_2.实现import redef keep_chinese(line): pattern = re.compile(r'[^\u4e00-\u9fa5]') #匹配非中文的字符 chinese = re.sub(pattern,'',line) #将非原创 2021-01-14 12:12:39 · 965 阅读 · 1 评论 -
运行Python脚本常用的一条linux命令
python *.py >./output/res 2>./output/err#把结果写在res里,输出的报错什么的写在err里.../bin/python *.py...#有时候用其他版本python什么的,写全路径cat *.txt | python *.py >./output/res 2>./output/err#从txt文档里面获取输入,做py脚本的相关处理cat .../*.txt | .../python *.py 。。。。。#写全路径...原创 2021-01-12 20:25:11 · 172 阅读 · 0 评论 -
python 字典基础
文章目录一、先看一个用字典的典型例子1.统计字符串中所有字符出现的次数二、字典1.创建1.1 dict[name]= value方式1.2 用dict()函数转为字典,只要元素和元素之间存在对应关系1.3 dict(zip())法2、字典基本操作2.1 通过 key 访问 value2.2 通过 key 添加 key-value 对2.3 通过 key 删除 key-value 对2.4 通过 key 修改 key-value 对2.5 通过 key 判断指定 key-value 对是否存在2.6 一些方法原创 2020-12-15 20:58:28 · 218 阅读 · 0 评论 -
pymysql连接数据库,获取数据写入到txt,并从txt读取代码示例(涉及到中文)
def get_conn(): try: conn = pymysql.connect( host = "***", port = ***, user = "***", password = "***", db = "***") except Exception as e: logger.warning(e) finally:原创 2020-12-11 17:27:13 · 1116 阅读 · 2 评论 -
python decode()encode() 编码转换与计算机编码通俗理解
直接说python中的decode encode是用来转码的(编码转换)。decode()英文意思:解码 ,一个人脱了衣服(无论穿什么,脱了都一样)。encode()英文意思:编码,一个人可以穿不同的衣服(穿啥由你决定)。python中脱了衣服都是unicode编码。字符串在python内部表示是unicode。Q:想要将gb18030编码转码为utf-8A:必须先将其解码为unicode,然后再重新编码成utf-8,以unicode为中间人。如,line=‘自然语言处理’,如果是在utf-8原创 2020-12-11 10:08:15 · 670 阅读 · 1 评论 -
pymysql连接数据库,获取数据代码示例
def get_conn(idx):"""连接数据库:如果idx为0,连接数据库1否则idx为1-31,连接另一个数据库连接成功后,返回conn""" try: if idx == 0: conn= pymysql.connect( host= "a", user= "***", password= "***", port= ***,原创 2020-12-04 17:26:40 · 408 阅读 · 0 评论 -
python——spark
Spark最大的特点就是将计算数据、中间结果都存储在内存中,大大减少了IO开销,因而,Spark更适合于迭代运算比较多的数据挖掘与机器学习运算。基础概念RDD:弹性分布式数据集(Resilient Distributed Dataset),分布式内存。DAG:有向无环图(Directed Acyclic Graph),反映RDD之间的依赖关系。Executor:运行在工作节点(Worker Node)上的一个进程,负责运行任务。一个spark应用程序,基本都是基于RDD的一系列操作。...原创 2020-12-03 16:57:06 · 225 阅读 · 0 评论 -
pandas之groupby新知识
待续原创 2020-10-26 16:46:08 · 328 阅读 · 0 评论 -
DataFrame常用小知识汇总
文章目录按条件筛数据df[df[列名]>=某个值]筛某个列只有[值1,值2...]的df isin()提取指定行列 iloc[]查看、统计类某一列有多少种值 nunique()按条件筛数据df[df[列名]>=某个值]# 取2020-06-06包含这天的数据df1= df[df['date']>='2020-06-06']#取完之后,丢掉原索引,重置索引(0,1......)df1= df1.reset_index(drop=True)筛某个列只有[值1,值2…]的d原创 2020-10-22 15:42:58 · 993 阅读 · 0 评论 -
python 将print输出信息写入文件中
import sys sys.stdout = open('recode.log', mode = 'w',encoding='utf-8') for i in range(10): print("testtest")进阶:https://blog.csdn.net/wchzh2015/article/details/93912149原创 2020-09-30 17:41:59 · 1654 阅读 · 2 评论 -
python打印数据类型——type、isinstance
php可以用var_dump()python呢?https://blog.csdn.net/huanglaoer123123/article/details/107228094/# 确定数据类型a = '123'b = int(a)print(b)c= float(b)print(c)# 分别打印出a、b、c 三个变量的类型print(type(a))print(type(b))print(type(c)) # isinstance()a = '我的字符串'print(isi转载 2020-09-29 14:32:16 · 1461 阅读 · 0 评论 -
arrow得到一个时间列表
import arrowstart= arrow.get('2020-08-25','YYYY-MM-DD')end= arrow.get('2020-08-31','YYYY-MM-DD') datelist= list(map(lambda dt: dt.format('YYYY-MM-DD'), arrow.Arrow.range('day', start, end)))#out: ['2020-08-25','2020-08-26','2020-08-27','2020-08-28原创 2020-09-08 21:51:15 · 364 阅读 · 0 评论 -
白噪声检验
白噪声检验:对数据序列的随机性做假设检验。可以用的方法:LjunBox检验。原假设:是随机的,既是白噪声序列。它返回一个p值。p值大,接受原假设;p值小,拒绝原假设。分割线:0.05。0.05置信区间以下,可以认为出现显著的自回归关系,且序列为非白噪声。...原创 2020-09-07 15:47:12 · 17796 阅读 · 1 评论 -
95%置信区间理解
from:知乎你得出的置信区间就像一张大网,而你要推断的真值是海里的一条鱼(不动的鱼),你的网可以撒向任何地方,有可能能捕捉到那条鱼,有可能一无所获。95%是用来描述你捕获真值的概率的,你撒100次网,有95次捕到了真值,5次一无所获。 引用一下Gudmud R .Iverson的《统计学-基本概念和方法》p157关于置信水平的小结: “置信水平为95%的意思是多次抽样中有95%的置信区间包含未知的参数值而另外的5%则不包含真值。至于在一次抽样得到的置信区间是包含总体参数的众多区间中的原创 2020-08-31 15:42:27 · 2417 阅读 · 0 评论 -
arrow
文章目录简介从string解析时间对象获取从现在到月底,按天为间隔的时间生成一段连续的时间段简介arrow是一个强大的时间处理模块。用于对时间的一些操作。import arrowt= arrow.now()print(t)a= t.datetime #datetimeb= t.timestamp #时间戳print(a)print(b)print(type(a))print(type(b))#获取年份print(a.year)print(type(a.year))#格式化原创 2020-08-26 16:10:50 · 269 阅读 · 0 评论 -
更新pip
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypython get-pip.py原创 2020-08-26 10:30:35 · 168 阅读 · 0 评论 -
自相关系数、偏自相关系数理解
用来测量当前序列值与过去序列值之间的相关性,并指示预测将来序列值时最有用的过去序列值。自相关函数 (ACF)。延迟为 k 时,这是相距 k 个时间间隔的序列值之间的相关性。偏自相关函数 (PACF)。延迟为 k 时,这是相距 k 个时间间隔的序列值之间的相关性,同时考虑了间隔之间的值。截尾是指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF);拖尾是ACF或PACF并不在某阶后均为0的性质(比如AR的ACF)。截尾:在大于某个常数k后快速趋于0为k阶截原创 2020-08-26 08:29:42 · 12445 阅读 · 1 评论 -
DataFrame找到某个值,输出该值对应的其他列的某个值
https://chehongshu.blog.csdn.net/article/details/107623238原创 2020-08-25 17:28:58 · 5369 阅读 · 0 评论 -
malplotlib绘制以日期作为坐标轴的图(转换为datetime、设置图大小、坐标刻度、坐标标签旋转显示)
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdf= pd.read_csv('/Users/chenchen56/Documents/csv/test.csv')df['date']= pd.to_datetime(df['date'],format='%Y/%m/%d')#此时date那一列类型为object,转换为datetime类型df.head()原创 2020-08-11 16:53:30 · 2025 阅读 · 0 评论 -
时间序列模型建模方法
拿到一个时间序列首先要进行一个预处理,检验该观测序列的平稳性。接下来会根据其平稳情况来建模。纯随机性检验和平稳性检验平稳时间序列建模非平稳时间序列建模原创 2020-08-03 15:39:52 · 876 阅读 · 0 评论 -
时间序列、时间序列模型——AR、MA、ARMA、ARIMA(一)
文章目录引文时间序列基本概念时间序列类型纯随机性检验平稳性检验平稳时间序列数学定义平稳性检验平稳时间序列分析AR模型MA模型ARMA模型平稳时间序列建模方法非平稳时间序列分析差分ARIMA模型引文假如我们有一个产品的历史销量数据,我们要预测最近的销量。我们就可以将销量预测看作是基于时间序列的短期数据预测。本次写的是:给定了一个已被观察的时间序列,预测该序列的未来值。时间序列基本概念时间序列类型1、纯随机序列/白噪声序列: 序列的各项值之间没有任何相关关系。白噪声序列是没有信息可提取的平稳序列。原创 2020-08-03 15:33:35 · 3769 阅读 · 0 评论 -
DataFrame查看列的数据类型、列数据类型转换
1、假如读了一个csv表格,读成了DataFramedf=pd.read_csv("//Users//chen//Documents//csv//test.csv",header=0)df.head(3)#查看前三行的记录2、查看列的数据类型df.dtypes#查看所有列的数据类型df['A'].dtypes#查看列名为"A"那列的数据类型3、把列名为"A"的数据类型转换成int类型df['A']= df['A'].astype('int')注意:astype不是原地操作,需要重新赋原创 2020-07-31 14:55:53 · 13150 阅读 · 0 评论 -
mac安装anaconda及conda常用命令、本地访问远程开发机上的jupyter notebook
下载安装1、官网下载GUI或者命令行2、安装,注意安装目录3、在终端输入conda,没有该命令。需要添加环境变量:a) sudo vim ~/.bash_profileb)如果环境中没有就手动添加环境变量:export PATH="/Users/anaconda3/bin:$PATH" 填自己的安装路径。:wq保存退出。c)刷新环境变量:source ~/.bash_profile4、查看已安装的包:conda list5、装完后,会有一个默认base环境。查看当前系统的环境:conda原创 2020-07-30 11:12:27 · 5125 阅读 · 0 评论 -
MySql常用命令解锁与知识补充 +跑数据
后续会按时间线更新。查看数据库:show databases;查看有哪些表:show tables;查看表结构、字段信息:a) desc 表名;b) show columns from 表名;c) decsribe 表名;d) show create table 表名; 可以查询创建表的语句。abc三种,展示结果一致。比如一个学生表,查看结果会如下:FiledTypeNullKeyDefaultExtrastudent_idbigint(20) unsi原创 2020-07-24 16:41:42 · 284 阅读 · 0 评论 -
python默认参数必须指向不变对象
一般情况下的默认参数# coding=utf-8def enroll(name, age, city="DaLi", country="China"): print("name:",name) print("age:",age) print("city:",city)if __name__== '__main__': enroll('c',6,'KunMing')运行结果:(‘name:’, ‘c’)(‘age:’, 6)(‘city:’, ‘KunMing’)假如默认参数原创 2020-06-17 12:54:05 · 680 阅读 · 0 评论 -
pandas——很全的groupby、agg,对表格数据分组与统计
groupby功能:以一种自然的方式对数据集切片、切块、摘要等操作。根据一个或多个键(可以是函数、数组、DataFrame列名)拆分pandas对象。计算分组摘要统计,如,计数、平均值、标准差、或用户自定义函数。对DataFrame的列应用各种各样的函数。应用组内转换或其他运算,如规格化、线性回归、排名或选取子集等。计算透视表或交叉表。执行分位数分析以及其他分组分析。groupby默认...原创 2018-12-26 21:10:23 · 45891 阅读 · 2 评论 -
Pandas处理csv英国降雨数据
文章目录导入数据测试一下header过滤索引改变行索引使用pandas快速作图保存处理后的数据集导入数据英国降雨数据:http://data.defra.gov.uk/statistics_2015/env/water/uk_rain_2014.csvimport pandas as pd#导入数据#uk_rain_2014.csv 第一行是标签,可以做列索引df=pd.read_c...原创 2018-11-27 17:40:52 · 2137 阅读 · 1 评论 -
pandas Plot出图
pandas绘图import pandas as pdimport numpy as npimport matplotlib.pyplot as pltnp.random.randn(10)array([-0.55641654, 0.61721538, -0.44471859, -0.70549804, -0.40572372, 0.94200087, 0.576...原创 2018-11-27 17:32:18 · 3536 阅读 · 0 评论 -
Pandas
Pandas可以看作字典形式的numpy,因为你可以给它的行、它的列命名字。两种主要数据类型:series和dataframeSeries:一维的数据类型。组成:标签+数据可看作带标签的元素组成的numpy数组标签:数字、字符DataFrame:二维、表格型的数据结构。含有一组有序的列(类似于index)大致可以看成共享同一个index的Series的集合import pand...原创 2018-11-27 10:10:25 · 167 阅读 · 0 评论