数据分析
文章平均质量分 70
爱打羽毛球的小怪兽
不断学习,不断努力
展开
-
使用python将xlsx格式数据输出到同一个表格的不同页
使用python将xlsx格式数据输出到同一个表格的不同页原创 2022-10-12 17:17:29 · 1167 阅读 · 0 评论 -
文本数据分析——情感分析
目录python文本分析工具NLTK在python环境下运行以下代码,选择需要的语料库进行下载典型的文本与处理流程为分词编辑结巴分词(中文分词)特殊字符可以使用正则表达式进行分词词形问题、词形归一化词性标注和停用词使用词频表示文本特征来度量文本间的相似性取出词频统计的最多的n个单词编辑文本分类编辑朴素贝叶斯算python文本分析工具NLTKNLP(自然语言处理)领域种最常用的一个python库,NLP是将自然语言(文本)转化为计算...原创 2022-05-14 11:45:12 · 1366 阅读 · 0 评论 -
时间序列数据分析相关知识
字符串和datetime的相互转换 datetime->strstr()可以强制转换datetime.strftime() 需要指定时间表示的形式,必须指定转换成的格式和分隔符str->datetimedatetime.strptime() 需要指定时间表示的形式,必须指定转换成的格式和分隔符dateutil.parser.parser() 可以解析大部分时间表示形式,如果第一个数字在月份范围之间...原创 2022-05-07 16:41:59 · 814 阅读 · 0 评论 -
Excel进行数据分析的常用知识的学习整理
本文所有知识均为个人在视频中学习的整理,主要作为个人笔记使用目录Excel常用基础知识选中并填充所有空单元格复制可见单元格(分类、分组、汇总的单元格)而非分组前的数据创建组选中错误单元格选择性粘贴单元格匹配替换(主要是为了避免符合替换条件但不需要替换的的)数据验证,多行多列变一个下拉列表快速填充Excel的基本公式Excel的常用函数数学函数日期函数统计函数:还有rank(排名次)内部重要函数文本函数查找与引用函数:vloo...原创 2022-03-30 17:38:02 · 1088 阅读 · 0 评论 -
matplotlib绘图时的内置样式设置汇总
import matplotlib.pyplot as plt import numpy as npimport matplotlib as mpldata=plt.style.availablex=np.linspace(-6,6)y=np.sin(x)for d in data: mpl.rcParams['font.sans-serif']=['FangSong'] mpl.rcParams['axes.unicode_minus']=False fig=p.原创 2022-03-23 11:28:34 · 1326 阅读 · 0 评论 -
解决matplotlib和seaborn标题和轴名称中文无法正常显示的问题
目录通过 matplotlib的rcRarams指定字体以及事都正常显示字符等,代码和运行结果如下:通过seaborn库中set方法来设置字体等,代码和运行结果如下:通过设置标题title时,利用title中的参数fontproperties直接指定字体,代码和运行结果如下,此方法最为靠谱和方便:通过 matplotlib的rcRarams指定字体以及事都正常显示字符等,代码和运行结果如下:import matplotlib.pyplot as plt import numpy as原创 2022-03-23 11:26:22 · 2879 阅读 · 0 评论 -
遍历字典的键、值、键值对
目录遍历所有键值对遍历所有键遍历所有值按顺序遍历(sorted)唯一值遍历(set())遍历所有键值对import pandas as pddata={'001':' wo ','002':' shi ','003':' yi ','004':' zhi ','005':' xiaoguaishou '}for key,value in data.items(): print(f'\nKey:{key}') print(f'Value:{value}')遍历.原创 2022-03-22 11:56:16 · 891 阅读 · 0 评论 -
机器学习笔记
决策树DecisionTreeClassifier:前剪枝(创建时便指定信息熵的临界值)和后剪枝绘制决策树的图,如下朴素贝叶斯算法:GaussianNB()#构造朴素贝叶斯分类器score(传入测试使用的自变量和因变量,一般指定sample_weight=None)来计算准确率对模型进行打分半朴素贝叶斯:为了解决朴素贝叶斯中属性独立性假设在实际中不适用的问题,建立一些属性间的联系,假定属性有一定的相关性,假设每个属性对多依赖一个其他的属性AODE:在ode的基础上原创 2022-03-20 15:59:28 · 1013 阅读 · 0 评论 -
使用cut分箱操作,创建二值响应变量
import pandas as pdd=pd.read_csv('D:/pandas活用/pandas_for_everyone-master/data/acs_ny.csv')print(d.columns)print('@'*66)print(d.head())Index(['Acres', 'FamilyIncome', 'FamilyType', 'NumBedrooms', 'NumChildren', 'NumPeople', 'NumRooms', 'NumU.原创 2022-02-05 08:37:41 · 1356 阅读 · 0 评论 -
分类数据cotegory介绍以及常用API的属性和方法
pandas中有一种分类数据类型category,分类数据类型具有以下优点:(1)采用这种方式存储数据更加节约内存,提高速度,尤其是数据集中包含很多重复的字符串得时候(2)当一劣质存在一定的顺序(比如李克特量表)时,应该转换成分类数据(3)有些python库可以处理分类数据(比如拟合统计模型)使用astype将数据转换成catecory数据类型可参考astype转换数据类型_我就是一个小怪兽的博客-CSDN博客以下给出的参考表中给出了可以再分类series上执行得操作,表格下面是该..原创 2022-01-20 10:32:12 · 850 阅读 · 0 评论