Python
CN-Dust
WAWAWA
展开
-
Python数据挖掘:数据转换-数据规范化
来源:天善智能韦玮老师课堂笔记作者:Dust----------数据转换:简单变换1、数据变换的目的是降数据转化为更方便分析的数据。2、简单变换通常使用函数变换的方式进行,常见的函数变换包括:开方、平方、对数等。数据规范化1、离差标准化--消除量纲(单位)影响以及变异大小因素的影响。x1=(x-min)/(max-min)2、标准差标准化--消除单位影响以及变量自身变异影响。x1=(x-平均数)/标准差3、小数定标规范化--消除单位影响x1=x/10**(k)k=log10(x原创 2021-01-21 21:42:23 · 568 阅读 · 0 评论 -
Python:数据集成
来源:天善智能韦玮老师 课堂笔记作者:Dust数据集成技巧import numpya=numpy.array([[1,5,6],[9,4,3]])b=numpy.array([[6,36,7],[2,3,39]])c=numpy.concatenate((a,b)) # 整合print("---a---")print(a)print("---b---")print(b)print("---c---")print(c)...原创 2021-01-18 15:39:11 · 947 阅读 · 1 评论 -
Python数据挖掘:数据探索,数据清洗,异常值处理
来源:天善智能韦玮老师 课堂笔记作者:Dust探索性数据分析Exploratory Data Analysis,EDA数据探索的核心是︰1、数据质量分析(跟数据清洗密切联系)2、数据特征分析(分布、对比、周期性、相关性、常见统计量等)数据清洗可以按如下步骤进行︰1、缺失值处理(通过describe与len直接发现、通过0数据发现)2、异常值处理(通过散点图发现)一般遇到缺失值,处理方式为(删除、插补、不处理);插补的方式主要有:均值插补、中位数插补、众数插补、固定值插补、最近数据插补、原创 2021-01-18 15:11:23 · 796 阅读 · 1 评论 -
Python数据挖掘:数据可视化分析
有任何问题欢迎在评论区提出!用到的csv文件:链接:https://pan.baidu.com/s/1OEg-U23EcEooVLwQCW_pzg提取码:1234'''来源:天善智能韦玮老师 课堂笔记作者:Dust数据可视化分析'''import pandas as pdaimport numpy as npyimport matplotlib.pylab as pyldata=pda.read_csv("E:/Python3.7/data/starcraft.csv")..原创 2021-01-18 13:26:47 · 1214 阅读 · 0 评论 -
Python数据挖掘:绘制直方图,设置上下限和步长,绘制子图
有任何问题欢迎在评论区提出!绘制直方图:'''来源:天善智能韦玮老师 课堂笔记作者:Dust直方图hist某一段数据出现的频数'''import numpy as npyimport matplotlib.pylab as pyldata3=npy.random.normal(10.0,1.0,10000) # 生成正态分布的随机数pyl.hist(data3)pyl.show()生成常规的随机数绘制直方图:'''来源:天善智能韦玮老师 课堂笔记作者:Dus原创 2021-01-18 13:06:12 · 3139 阅读 · 0 评论 -
Python:numpy生成正态分布的平均数
首先复习一下正态分布(百度百科):https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/829892?fr=aladdin正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。原创 2021-01-16 20:38:24 · 1584 阅读 · 2 评论 -
Python:numpy实现生成随机数,忽略warnings
'''作者:Dust'''# 生成随机数:numpy下的randomimport numpy as npyimport warningswarnings.filterwarnings("ignore", category=Warning)# 额,运行的时候出现了一些warning很丑,我选择视而不见=v=data=npy.random.random_integers(1,20,10) # (最小值,最大值,个数)print(data)用这段代码可以生成10个1~20的随机数pl.原创 2021-01-16 18:25:55 · 274 阅读 · 0 评论 -
Python:matplotlib实践:直方图、散点图展示、变色、线条变换、点样式变换、添加名称、设置横纵轴范围、在一张图上显示多条线
'''来源:天善智能韦玮老师课堂笔记作者:Dust'''# 折线图、散点图import matplotlib.pylab as pylimport numpy as npyx=[1,2,3,4,8]y=[5,7,2,1,5]pyl.plot(x,y) # plot(x轴数据,y轴数据,对应的展现形式)pyl.show()这个show可以直接展示一个直方图挺厉害的,持续学习中……...原创 2021-01-16 17:38:26 · 1039 阅读 · 0 评论 -
Python:数据导入、爬虫:csv,excel,sql,html,txt
'''来源:天善智能韦玮老师课堂笔记作者:Dust数据导入·导入csv数据 csv是一种常见的数据存储格式,基本上我们遇到的数据都可以转为这种存储格式。在Python数据分析中,我们可以使用pandas模块导入csv数据。·导入excel数据 excel是一种表格文件,在Python数据分析中,我们同样可以使用pandas模块导入excel表格里面的数据。·导入MySQL数据库里的数据 MySQL是一种很常见的数据库,在Python数据分析中,我们也可以直接从MySQL.原创 2021-01-16 17:05:53 · 219 阅读 · 0 评论 -
‘utf-8‘ codec can‘t decode byte 0xa8 in position 1210: invalid start byte报错解决
用VS学pandas的时候遇到了一个小问题。看了一下是编码的问题,应该是文件内有字符不是用utf-08编码的要么换个文件,要么改变编码。在后面加上encoding='gbk'就行了,如图所示原创 2021-01-16 15:46:58 · 2881 阅读 · 0 评论 -
Python数据挖掘2:pandas使用:Series一串数字和DataFrame数据框
'''pandas来源:Dust的天善智能韦玮老师 课堂笔记'''import pandas as pda'''Series 一串数字index 索引,默认0,1,2,3DataFrame 数据框'''a=pda.Series([8,9,2,1])print(a)b=pda.Series([8,9,2,1],index=["one","two","three","four"])print(b)c=pda.DataFrame([[1,2,3],[4,5,6],[7,8,9]]) .原创 2021-01-15 22:18:44 · 160 阅读 · 0 评论 -
Python数据挖掘1:创建一位数组和二维数组,取最大最小值,切片
'''来源:天善智能韦玮老师课堂笔记1、numpy 可以高效处理数据、提供数组支持、很多模块都依赖他,比如pandas、scipy、matplotlib都依赖他,所以这个模块是基础。2、pandas 我们课程后续用得最多的一个模块,主要用于进行数据探索和数据分析。3、matplotlib 作图模块,解决可视化问题。4、scipy 主要进行数值计算,同时支持矩阵运算,并提供了很多高等数据处理功能,比如积分、傅里叶变换、微分方程求解等。5、statsmodels 这个模块主要用于统计分析6、Ge.原创 2021-01-15 21:33:22 · 306 阅读 · 2 评论 -
第三个Python程序:Python函数
'''来源:天善智能韦玮老师 课堂笔记函数函数的本质就是封装,使用函数可以提高编程效率局部变量与全局变量变量的生效范围'''# 作用域i=10def func(): global k # 在函数内声明全局变量k k=10 j=10 j += 1 # j的作用域在函数中,函数外不生效 print("j="+str(j)) # 在函数内输出jfunc() # 调用函数funcprint("k="+str(k))print("i="+str.原创 2021-01-15 18:47:13 · 94 阅读 · 0 评论 -
Python的输出:Python2.7和Python3.7的区别
在3.7的环境下,可以输出特殊符号 ï ,但是print后面一定要跟括号。不加括号就会报错。在2.7的环境下无法输出特殊字符,但是print后面无需加括号,用空格隔开就行。运行结果:(Python3.7)正确代码:(Python3.7)# coding:utf-8'''Created on Dec 3, 2016@author: Bin Liang'''def run_main(): """ main function """原创 2021-01-14 19:20:46 · 277 阅读 · 0 评论 -
第二个Python程序:if,for,while,输出乘法口诀表
'''程序执行流程成为控制流,Python中有3种基本控制流:1.顺序结构2.条件分支结构3.循环结构'''# if语句print("---if:---")a=1if(a==7): # if,elif,else都是同级的 print(a)elif(a<2): # 如果if不满足,看看elif是否满足,不满足再执行else # elif可以有多个 print(a)else: # 注意冒号不要忘了 print("nnn")if(a==1): .原创 2021-01-14 18:20:27 · 307 阅读 · 0 评论 -
第一个python程序:定义,列表,元组,集合,求并集交集,键和值,运算符,缩进
print("定义")a = 6 # python里无需定义print("a=",a)a += 1 # +=的使用print("a+1=",a) abc = ["My","You"] # 列表,可重新定义print("abc=",abc)print("abc[0]=",abc[0])print("abc[1]=",abc[1])abc[1]="He"print("abc[1]=",abc[1])print("abc=",abc)cde=("My","You") # 元组,不可重.原创 2021-01-14 17:53:07 · 315 阅读 · 1 评论 -
pip install scipy和matplotlib报错的问题详解:(pip install其它时报错通用)
多灾多难的pip简直太玄学了,在第一个电脑上装的时候啥问题都没有,给第二个装的时候各种问题……附上numpy 和 pandas的报错解决方案:https://blog.csdn.net/qq_36286039/article/details/1126148221.pip install scipy:首先输入一次pip install scipy,找到你对应版本的scipy然后访问网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/#sci.原创 2021-01-14 17:48:49 · 2334 阅读 · 2 评论 -
pip install numpy/pandas时报错的解决方法
pip install numpy的时候觉得网速慢就把梯子打开了……然后不仅报错,后面还一直报警告……按照提示升级了也不行。。仔细读一读WARNING部分就发现是网络问题……梯子关上就好了。ps:可以直接pip install pandas,同时numpy也会安装。小白就不稳为什么了,也是csdn搜的。...原创 2021-01-14 16:00:01 · 6271 阅读 · 2 评论