2021年01月_阳光快乐普信男

转载【数据库笔记】MySQL 关键字 & 函数

文章目录0 基础数据1 关键字：EXISTS & NOT EXISTS2 函数2.1 count()：计数2.2 group_concat()：分组聚合2.3 substring_index()：切分0 基础数据以下为本次应用的三张表，其结构和内容如下：-- 表1 : T_Score 分数表create table T_Score(stu_id int,lesson_id varchar(255),score int);-- 表2 : T_Stu_Profile 学生表c.

2021-01-31 20:22:21 250

原创【Python笔记】read_html():获取table类型网页表格数据

文章目录0 基础知识table类型的表格网页结构read_html()函数1 快速抓取法1.1 思路1.2 代码2 完整爬虫抓取法2.1 思路2.2 代码3 小结常见的各种官网都有这样一种情况：网站中很多表格，我们想对这些表格进行整理汇总、或者是筛选，或者是处理分析。于是我们需要考虑：如何将网页表格数据使用python保存为Excel文件？如果需要抓的表格很少或只需要抓一次，那么推荐快速抓取法 [引文1]。如果页数比较多，推荐完整爬虫抓取法 [引文2]。解析函数用了BeautifulSoup.

2021-01-30 20:19:02 13387 3

原创【Python笔记】Pandas时期及其算术运算

文章目录1 时期的频率转换2 按季度计算的时期频率3 将Timestamp转换为Period（及其反向过程）4 通过数组创建PeriodIndex5 重采样及频率转换升采样降采样OHLC重采样通过groupby进行降采样升采样和插值通过时期进行重采样6 时间序列绘图7 移动窗口函数指数加权函数二元移动窗口函数用户定义的移动窗口函数时期（period）表示的是时间区间，比如数日、数月、数季、数年等。period类表示的就是这种数据类型，其构造函数需要一个字符串或整数，以及下表的频率。# 表示从20.

2021-01-29 00:35:05 725

原创【Python笔记】Pandas时区处理

文章目录1 时区处理2 本地化和转换方式一方式二3 操作时区意识型Timestamp对象4 不同时区之间的运算1 时区处理Python中时区信息来自第三方库pytz。import pytz# 常用的时区列表(440个)pytz.common_timezones[-5:]# ['US/Eastern', 'US/Hawaii', 'US/Mountain', 'US/Pacific', 'UTC']# 常用的时区集合pytz.common_timezones_set# {'Asia.

2021-01-28 20:21:05 1670

原创【Python笔记】read_html():获取网页表格数据 & 读取JSON数据 & XML和HTML:Web信息收集 & 使用HTML和Web API

文章目录JSON数据XML和HTML:Web信息收集使用HTML和Web APIJSON数据JSON（JavaScript Object Notation的简称）已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。它是一种比表格型文本格式（如CSV）灵活得多的数据格式。注意：全都要用英文输入模式下的双引号 “obj="""{"name":"Wes", "places_lived":["USA","Spain","China"], "pet":null, ".

2021-01-27 23:19:09 1749

原创【Python笔记】Pandas层次化索引

文章目录SeriesDataFrame层次化索引（hierarchical indexing）是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。抽象点说，它使你能以低纬度处理高纬度数据。Seriesdata=pd.Series(np.random.randn(10), index=[list('aaabbbccdd'),list('1231231223')])# a 1 -0.264274# 2 0.623079# .

2021-01-27 00:26:07 306

原创【Python笔记】pandas排序和排名

文章目录排序SeriesDataFrame排名SeriesDataFrame排序对行或列索引进行排序（按字典序），可使用sort_index方法，将返回一个已排序的新对象。Seriesobj=pd.Series(range(4),index=list('dabc'))# d 0# a 1# b 2# c 3# dtype: int64obj.sort_index()# a 1# b 2# c 3# d 0# dtype: i.

2021-01-26 22:24:17 774

原创【Python笔记】pandas算数运算和数据对齐

文章目录1 算数运算和数据对齐2 在算数方法中填充值3 DataFrame和Series之间的运算1 算数运算和数据对齐pandas最重要的一个功能是，它可以对不同索引的对象进行算数运算。在将对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。import pandas as pds1=pd.Series([7.3,-2.5,3.4,1.5],index=list('acde'))s2=pd.Series([-2.1,3.6,-1.5,4,3.1],index=list('ac.

2021-01-26 19:43:32 800

原创【Python笔记】SciPy的统计模块：scipy.stats

SciPy的统计模块是scipy.stats，其中有一个类是连续分布的实现，一个类是离散分布的实现。此外，该模块中还有很多用于统计检验的函数。# 导入包from scipy import statsimport matplotlib.pyplot as plt# 1.使用`scipy.stats`包按正态分布生成随机数generated = stats.norm.rvs(size=900)# 2.用正态分布去拟合生成的数据，得到其均值和标准差print("Mean", "Std", sta

2021-01-26 00:25:38 11040

原创【DA】Python 实现区间估计

文章目录一个总体均值的置信区间一个总体方差的置信区间两个总体方差比的置信区间一个总体均值的置信区间def mean_interval(mean=None, std=None, sig=None, n=None, confidence=0.95): """ mean:样本均值 std：样本标准差 sig: 总体方差 n: 样本量 confidence：置信水平功能：构建总体均值的置信区间 """ alpha = 1 - c.

2021-01-18 21:53:15 1618

原创【DA】z检验p值的计算

Excel-NORMSDIST函数概念NORMSDIST函数返回标准正态累积分布函数的函数值。该分布的平均值为 0（零），标准偏差为 1。可以使用此函数代替标准正态曲线面积表。NORMSDIST(z)NORMSDIST(z)NORMSDIST(z)z :必需值，是需要计算其分布的数值。如果 z 是非数字的，则 NORMSDIST 返回#VALUE！错误值。标准正态分布密度函数的公式为：f(z)=12πe−z22f(z)=\frac{1}{\sqrt{2π}}e^{-\frac{z^2}

2021-01-05 02:05:58 15438 1

原创【Python笔记】Scipy.stats.norm函数解析

scipy.stats.norm函数可以实现正态分布（也就是高斯分布）pdf ——概率密度函数标准形式是：norm.pdf(x, loc, scale)等同于norm.pdf(y) / scale ，其中 y = (x - loc) / scale调用方式用两种，见代码：from scipy import statsimport numpy as npimport matplotlib.pyplot as pltplt.figure(figsize=(12,8))x=np.lins

2021-01-02 20:41:08 40876 1

西瓜太郎