![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 61
爱打羽毛球的小怪兽
不断学习,不断努力
展开
-
几行 Python 代码就可以提取数百个时间序列特征
几行 Python 代码就可以提取数百个时间序列特征原创 2022-11-24 09:05:50 · 492 阅读 · 1 评论 -
文本数据分析——情感分析
目录python文本分析工具NLTK在python环境下运行以下代码,选择需要的语料库进行下载典型的文本与处理流程为分词编辑结巴分词(中文分词)特殊字符可以使用正则表达式进行分词词形问题、词形归一化词性标注和停用词使用词频表示文本特征来度量文本间的相似性取出词频统计的最多的n个单词编辑文本分类编辑朴素贝叶斯算python文本分析工具NLTKNLP(自然语言处理)领域种最常用的一个python库,NLP是将自然语言(文本)转化为计算...原创 2022-05-14 11:45:12 · 1371 阅读 · 0 评论 -
时间序列数据分析相关知识
字符串和datetime的相互转换 datetime->strstr()可以强制转换datetime.strftime() 需要指定时间表示的形式,必须指定转换成的格式和分隔符str->datetimedatetime.strptime() 需要指定时间表示的形式,必须指定转换成的格式和分隔符dateutil.parser.parser() 可以解析大部分时间表示形式,如果第一个数字在月份范围之间...原创 2022-05-07 16:41:59 · 816 阅读 · 0 评论 -
matplotlib绘图散点图可用的markers形状(标记)汇总
'o','v','^','<','>','8','s','p','*','h','H','D','d','P','X'原创 2022-04-02 09:56:14 · 2166 阅读 · 0 评论 -
matplotlib绘图时的内置样式设置汇总
import matplotlib.pyplot as plt import numpy as npimport matplotlib as mpldata=plt.style.availablex=np.linspace(-6,6)y=np.sin(x)for d in data: mpl.rcParams['font.sans-serif']=['FangSong'] mpl.rcParams['axes.unicode_minus']=False fig=p.原创 2022-03-23 11:28:34 · 1331 阅读 · 0 评论 -
解决matplotlib和seaborn标题和轴名称中文无法正常显示的问题
目录通过 matplotlib的rcRarams指定字体以及事都正常显示字符等,代码和运行结果如下:通过seaborn库中set方法来设置字体等,代码和运行结果如下:通过设置标题title时,利用title中的参数fontproperties直接指定字体,代码和运行结果如下,此方法最为靠谱和方便:通过 matplotlib的rcRarams指定字体以及事都正常显示字符等,代码和运行结果如下:import matplotlib.pyplot as plt import numpy as原创 2022-03-23 11:26:22 · 2887 阅读 · 0 评论 -
遍历字典的键、值、键值对
目录遍历所有键值对遍历所有键遍历所有值按顺序遍历(sorted)唯一值遍历(set())遍历所有键值对import pandas as pddata={'001':' wo ','002':' shi ','003':' yi ','004':' zhi ','005':' xiaoguaishou '}for key,value in data.items(): print(f'\nKey:{key}') print(f'Value:{value}')遍历.原创 2022-03-22 11:56:16 · 905 阅读 · 0 评论 -
机器学习笔记
决策树DecisionTreeClassifier:前剪枝(创建时便指定信息熵的临界值)和后剪枝绘制决策树的图,如下朴素贝叶斯算法:GaussianNB()#构造朴素贝叶斯分类器score(传入测试使用的自变量和因变量,一般指定sample_weight=None)来计算准确率对模型进行打分半朴素贝叶斯:为了解决朴素贝叶斯中属性独立性假设在实际中不适用的问题,建立一些属性间的联系,假定属性有一定的相关性,假设每个属性对多依赖一个其他的属性AODE:在ode的基础上原创 2022-03-20 15:59:28 · 1014 阅读 · 0 评论 -
机器学习示例总结(线性回归、逻辑回归、KNN算法、朴素贝叶斯、SVM算法、决策树)
以下所有内容均为在华为云学习的总结AI技术领域课程--机器学习_在线课程_华为云开发者学堂_云计算培训-华为云 (huaweicloud.com)线性回归第三方库实现# 导入sklearn下的LinearRegression 方法from sklearn.linear_model import LinearRegressionimport numpy as npmodel = LinearRegression()# 构造用于训练的数据集x_train = np.array([[..原创 2022-03-17 09:33:10 · 3497 阅读 · 0 评论 -
爬虫学习5——requests进阶(cookie登录、防盗链、
cookies登录登录之后会得到服务器返回的cookie,使用cookie请求我们需求的url页面session用于保持登录信息,在这个过程中cookie信息不会丢失session=requests.session()方法一:在提出申请时指定cookieimport requestsresp=requests.get('https://user.17k.com/ck/author/shelf?page=1&appKey=2406394919',headers={'Cooki原创 2022-03-09 08:00:00 · 304 阅读 · 0 评论 -
爬虫学习4——Xpath爬取网页信息
xpath是在XML文档中搜索内容的一门语言,我们常见的html是xml的一个子集目录安装lxml模块获取网页数据text()拿文本 。xpath使用[1]选择同种标签的第一个。/a[@href='']根据属性href的值选择特定标签//表示后代(子标签,孙子标签,重孙子标签)。*表示任意的节点,通配符。使用@拿到属性值./表示当前节点安装lxml模块pip install lxml获取网页数据text()拿文本 。xpath使用[1]选择同种标签的第一个。/a原创 2022-02-23 17:07:24 · 3246 阅读 · 0 评论 -
爬虫学习3--使用requests与BeautifulSoup爬取网页图片
关于前面的知识点可以通过下面链接对比查看爬虫学习1--使用requests库与re库对网页进行爬取示例讲解_我就是一个小怪兽的博客-CSDN博客图片来源于网络随意找到的一个图库,import requestsfrom bs4 import BeautifulSoupurl='https://www.woyaogexing.com/shouji/'r=requests.get(url,verify=False)r.encoding='utf-8'tt=r.text#获取需要的源代码.原创 2022-02-19 10:31:42 · 992 阅读 · 1 评论 -
爬虫学习2--使用requests、bs4以及csv爬取保存网页信息
文章所有知识基本来自个人的学习整理目录准备工作代码结果展示准备工作准备好我们需要的库以及我们要爬取的网页url等基本信息pip install requestspip install bs4代码本次演示我们选择了山东省菜价,来源于网络读取多个页面数据时,可能会出现下面AttributeError: 'NoneType' object has no attribute 'find_all'的错误,我查阅了别人所说的解决办法,加了请求头headers之后还会出现.原创 2022-02-18 12:47:39 · 1136 阅读 · 0 评论 -
爬虫学习1--使用requests库与re库对网页进行爬取示例讲解
简介首先对requests库和re库要有一个清晰的功能定位。requests库是用来获取网页源代码的,使用re库的正则化匹配从获取的网页源代码中匹配得到我们所需要的信息。requests发送请求的方式又get和post两种,两者最直观就是get获取时,数据可以出现在url中,而post获取时,需要在post方法中另外指定data参数来指定数据import requestsurl='https://correctxt.baidu.com/correctxt?callback=jQuery原创 2022-02-17 14:37:49 · 1980 阅读 · 0 评论 -
return和yield的区分
return:在函数中用于返回一个值,在返回这个值后程序不再继续执行,一个函数直接返回了一个值并且结束>>> def lll():... return 10... print('我是一只小怪兽')...>>> g=lll()>>> print(g)10yield:生成一个数,但是并不直接返回,而是生成一个生成器如下面代码所示,我们可以看成代码运行到yield处得到了一个生成器对象g,到此停止,我们必须调用next方法才可原创 2022-02-16 22:20:09 · 359 阅读 · 0 评论 -
pyecharts与matplotlib在使用时的区别和优缺点对比
简介pyecharts(以下简介来源于官网)echarts是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts诞生了。简洁的 API 设计,使用如丝滑般流畅,支持链式调用 囊括了 30+ 种常见图表,应有尽有 支持主流 Notebook 环境,Jupyter Notebook 和 JupyterLab 可轻松集成至 Flask,Django 等.原创 2022-02-09 09:43:57 · 10677 阅读 · 0 评论 -
广义线性模型(逻辑回归、泊松回归)
线性回归模型也并不适用于所有情况,有些结果可能包含而元数据(比如正面与反面)或者计数数据,广义线性模型可用于解释这类数据,使用的仍然是自变量的线性组合。目录逻辑回归使用statsmodels使用sklearn泊松回归使用statsmodels负二项回归逻辑回归当响应变量为二元数据时,常用逻辑回归对数据进行建模。以下数据来源于pandas活用所提供的数据,如需要可在此下载https://download.csdn.net/download/qq_57099024..原创 2022-02-05 10:17:39 · 3852 阅读 · 1 评论 -
使用cut分箱操作,创建二值响应变量
import pandas as pdd=pd.read_csv('D:/pandas活用/pandas_for_everyone-master/data/acs_ny.csv')print(d.columns)print('@'*66)print(d.head())Index(['Acres', 'FamilyIncome', 'FamilyType', 'NumBedrooms', 'NumChildren', 'NumPeople', 'NumRooms', 'NumU.原创 2022-02-05 08:37:41 · 1357 阅读 · 0 评论 -
修改字符串的大小写title(),upper(),lower()
title():使每个单词的首字母变为大写,单词之间的间隔符可以使用空格、斜杠等。upper():使每个字母都变为大写。lower():使每个字母都变为小写。>>> s='wo shi xiaoguaishou'>>> s.title()'Wo Shi Xiaoguaishou'>>> sss='wo\shi\ xiaoguaoshou'>>> sss.title()'Wo\\Shi\\ Xiaoguaosh.原创 2022-01-27 09:41:56 · 372 阅读 · 0 评论 -
分类数据cotegory介绍以及常用API的属性和方法
pandas中有一种分类数据类型category,分类数据类型具有以下优点:(1)采用这种方式存储数据更加节约内存,提高速度,尤其是数据集中包含很多重复的字符串得时候(2)当一劣质存在一定的顺序(比如李克特量表)时,应该转换成分类数据(3)有些python库可以处理分类数据(比如拟合统计模型)使用astype将数据转换成catecory数据类型可参考astype转换数据类型_我就是一个小怪兽的博客-CSDN博客以下给出的参考表中给出了可以再分类series上执行得操作,表格下面是该..原创 2022-01-20 10:32:12 · 853 阅读 · 0 评论 -
使用to_numeric转换为数值类型
目录errors参数:to_numeric向下转型:downcast参数to_numeric:于astype转换数据类型方法相比擅长将非数值类型数据转换为数值类型,astype转换数据类型_我就是一个小怪兽的博客-CSDN博客import pandas as pd import seaborn as snstips=sns.load_dataset('tips')t=tips.head(10)#获取子集t.loc[[1,4,7],'total_bill']='missin..原创 2022-01-20 09:35:15 · 3511 阅读 · 0 评论 -
astype转换数据类型
astype方法:通用函数,可以用于把dataframe中的任何列转换成其他类型常见的数据类型有:int 整型;float 浮点型;object/str 字符串;category 分类数据。import pandas as pd import seaborn as snstips=sns.load_dataset('tips')#选择seaborn自带数据集中的tipsprint(tips.dtypes)#查看tips数据每一列的类型tips['sex']=tips['sex'].ast原创 2022-01-20 09:04:04 · 7963 阅读 · 4 评论 -
resample进行重采样
重采样会根据得到的日期参数把数据进行展示,会把数据从一个频率转换到另一个频率,主要有如下三类:1.上采样:从低频率到高频率(比如:从每月到每天)2.下采样:从高频率到低频率(比如:从每天到每月)3.原样采样:采样频率不变(比如从每月得第一个星期四到每月得最后一个星期五)resample有图个rule参数,用于接收偏移量字符串,对于改参数可能取得的值可以参考date_range创建日期范围freq参数取值表及创建示例_我就是一个小怪兽的博客-CSDN博客import pandas a原创 2022-01-16 15:01:21 · 1425 阅读 · 1 评论 -
pandas中的shift()方法对数据进行移动的操作
部分参数含义如下:periods:表示shift移动的幅度,正数表示下移,负数表示上移,默认值是1,移动后没有值得索引后面显示缺失freq:按照freq参数值作为间隔移动时间索引,数据值不发生变化,关于freq可以取得值可以参考date_range创建日期范围freq参数取值表及创建示例_我就是一个小怪兽的博客-CSDN博客>>> import pandas as pd>>> date_index=pd.date_range('2022-01-01',p..原创 2022-01-14 16:39:52 · 1528 阅读 · 0 评论 -
datetime数据类型——min()获取最早日期、date_range()创建日期范围、Timestamp()创建时间戳、tz()时区变换
目录min():获取最早日期date_range:创建日期范围偏移量参数Timestamp:创建时间戳tz:时区tz参数用于指定时区tz_localize:用于对时区进行编码to_convert:变换时区min():获取最早日期>>> import pandas as pd>>> ebola=pd.read_csv(r'D:\pandas活用\pandas_for_everyone-master\data/country_tim原创 2022-01-12 11:08:11 · 2187 阅读 · 0 评论 -
date_range创建日期范围freq参数取值表及创建示例
别名 说明 B 工作日 C 自定义工作日(实验) D 日历日 W 每周 M 月末 SM 月中和月末(每个月的第十五天和月末) BM 月末工作日 CBM 自定义月末工作日 MS 月初 SMS 月初和月中(每个月的第一天和第十五天) BMS 月初工作日 CBMS 自定义月初工作日 Q 季度末 BQ 季度末工作日 QS 季度初 BQS 季度初工作日原创 2022-01-12 10:39:10 · 1397 阅读 · 0 评论 -
Python strftime行为及转换成日期格式示例
符号 含义 %a 星期的缩略名 %A 星期的完整名称 %w 以数字表示星期,0为周日 %d 一个月中的每一天 (两个数字) %b 月份名的缩写形式 %B 月份名的完整形式 %m 月份(两位数字) %y 年份(两位数字) %Y 年份(四位数字) %H 小时(两位数,24小时制) %I 小时(两位数,12小时制) %p AM或PM %M 分钟...原创 2022-01-12 08:42:57 · 390 阅读 · 0 评论 -
datetime数据类型---now()获取当前时间、datetime()创建日期、进行数学运算、to_datetime()转换成日期类型、提取日期各个部分
目录获取当前日期和时间创建日期对datetime进行数学运算转换为datetime数据类型Python strftime行为符号含义提取日期的各个部分获取当前日期和时间>>> from datetime import datetime as dt>>> print(dt.now())2022-01-11 11:22:23.612976创建日期>>> t1=dt(1999,5,23)>&...原创 2022-01-11 16:58:24 · 2233 阅读 · 0 评论 -
使用matplotlib添加画布层面的外部图像
import matplotlib.pyplot as plt from matplotlib.cbook import get_sample_datafrom matplotlib.patches import RectangleimageArray=plt.imread('D:/个人/1.jpg')fig,ax=plt.subplots(1,1)ai=ax.imshow(imageArray)patch=Rectangle((1,0),200,3600)#提供一个图形以裁剪图片ai.原创 2022-01-10 11:40:21 · 1577 阅读 · 0 评论 -
使用matplotlib中fill和fill_between填充函数之间的空白区域
fill:用来填充坐标轴和函数之间的区域import matplotlib.pyplot as pltimport numpy as npimport pandas as pdx=np.linspace(0,2*np.pi,num=500)y=np.sin(x)plt.fill(x,y,color='cornflowerblue',alpha=0.4)plt.plot(x,y,color='red',alpha=0.8)plt.plot([x[0],x[-1]],[y[0],y[-.原创 2022-01-08 09:35:14 · 5658 阅读 · 0 评论 -
sklearn库——线性回归模型
目录简单线性回归多元线性回归分类变量转换成虚拟变量简单线性回归from sklearn import linear_model#导入所需要的包lr=linear_model.LinearRegression()#指定模型#再fit中指定自变量和响应变量,注意此处使用的是大写X和小写y#由于sklearn接受的是numpy数组,所以又是需要处理数据,为了将dataframe传入sklearn。predicted=lr.fit(X=tips['total_bill'].values原创 2022-01-05 16:22:42 · 3891 阅读 · 0 评论 -
statsmodels库——线性回归模型
下面简单整理一下statsmodels库创建简单的线性回归模型import statsmodels.formula.api as smfimport seaborn as snsimport pandas as pdtips=sns.load_dataset('tips')#下载seaborn自带的数据集tipsprint(tips.head())#查看获取的数据集tips的前五行 total_bill tip sex smoker day time si.原创 2022-01-05 15:01:20 · 2466 阅读 · 0 评论 -
numpy库常用知识整理
数组np.ones():创建一个数组>>> import numpy as np>>> z1=np.ones((3,3))#创建一个数组>>> print(z1)[[1. 1. 1.] [1. 1. 1.] [1. 1. 1.]]<class 'numpy.ndarray'>np.array():转换成数组类型>>> d1=[1,2,3,4,5,6,7,8,9]>>> d1原创 2022-01-04 22:28:10 · 1256 阅读 · 0 评论 -
使用matplotlib实现GUI交互效果
以下图像中主要包含以下内容:横纵交叉坐标定位直线、选择框按钮、复选框按钮、绘制子图以下为上图的实现代码import matplotlib.pyplot as pltimport numpy as npfrom matplotlib.widgets import RadioButtons,Cursor,CheckButtons#导入需要的包x=np.linspace(0.0,2.0,1000)从0到2之间平均取1000个点y1=1.5*np.cos(2*np.pi*x)y...原创 2022-01-03 17:00:32 · 714 阅读 · 0 评论 -
在windows下安装并搭建python环境
下载进入下面网页,点击Downloads选择合适的系统,和文件进行下载,Download Python | Python.org如果是windows系统可以直接进入下面的链接进行下载Python Release Python 3.10.1 | Python.org安装下载后直接打开exe为后缀的文件进行运行安装,出现下面的界面,将下方下方的Add添加运行环境打上对号,选择Install Now可以同时安装pip等测试是否安装成功按住菜单键(windows键...原创 2022-01-03 11:43:20 · 164 阅读 · 0 评论 -
random模块——随机数常用函数介绍
random.random():随机产生一个[0,1)的数字>>> random.random()0.1397457849666789random.seed():设置随机种子拥有相同随机种子的程序每次从头执行的随机结果都是一样的>>> import random>>> random.seed(0)#第一次设定随机种子>>> print(random.random())0.8444218515250481&.原创 2022-01-03 11:25:01 · 4703 阅读 · 0 评论 -
使用matplotlib绘制圆、椭圆、矩形、圆弧、楔形等
以下小机器人是我利用楔(xie)形Wedge,弧线Arc,椭圆Ellipse,矩形Rectangle以下是实现上面机器人的代码:绘制这个机器人没有用到圆Circle,圆的关键参数只有圆心坐标和半径import matplotlib.pyplot as pltimport numpy as npimport pandas as pdfrom matplotlib.patches import Arc,Ellipse,Rectangle,Wedge#导入需要的包fig,ax=pl..原创 2021-12-30 19:01:17 · 3692 阅读 · 0 评论 -
正则表达式——python对字符串的查找匹配
Python中的正则表达式要用到re模块,下面先介绍一下正则表达式需要用到的特殊字符和说明常用的RegEx基础语法 语法 说明 \d 匹配一个数字字符 \D 匹配一个非数字字符 \s 匹配任何不可见字符(空格、制表符、换行符等) \S 匹配任何可见字符 \w 匹配任何单词字符 \W 匹配任何非单词字符 . 匹配所有字符 ^ 从字符串开头开始匹配,比如^\d表示以一个数字字符开头 $ 从字符串末尾开始匹配,比原创 2021-12-30 12:17:31 · 5745 阅读 · 0 评论 -
使用Python、pandas、pyecharts进行数据分析——实例讲解
目录1导入分析过程中所需要用到的包2 获取数据3对数据进行需求处理3.1对数据列得重新命名——rename3.2 表连接——concat3.3 缺失值处理——isnull、dropna、fillna3.4 正则化匹配——re.match\re.search3.5 日期类型——datetime3.6获取子集3.7 分组操作——gruopby3.8根据实际需要进行操作4 数据可视化1导入分析过程中所需要用到的包import pandas as p...原创 2021-12-26 11:09:37 · 2120 阅读 · 3 评论 -
Python——numpy库中reshape的用法
reshape的详细介绍原创 2021-12-25 14:32:36 · 7799 阅读 · 0 评论