一个小白的日常-CSDN博客

原创 Excel透视表与python实现

1）选择要分析的字段，左侧为要对其进行汇总的数据，右侧为要汇总的具体值项。依据 “求和项：近一个月销售额” 对ID的top5进行选择。1）按照近一个销售额对每个品类的top5进行分析。数字格式：数字的表示方式（如小数点个数等）1）四个类目，每类50条数据。值汇总方式：数据计算方式。值显示方式：数据的百分比。

2023-07-28 10:45:43 2745

原创 VBA-正则实例

测试1中，文字和数字的位置发生了变化，仅使用excel表的提取方法已存在问题。下面将使用正则方法进行编辑。

2023-05-31 11:35:19 511

原创 VBA学习-循环语句

offset(2,3) 向下偏移二行，向右偏移三列（负号是反方向偏移）xlToRight：返回最右端的单元格。8、End：获取行或列的首末行单元格。xlToLeft：返回最左端的单元格。xlToDown：返回最下端的单元格。7、offset属性：返回指定区域。xlToUp：返回最上端的单元格。9、inputbox ：提示。

2023-05-25 16:26:53 2584

原创 cookie-机制

1、cookie是存储在客户端的一组键值对2、web中cookie的典型应用：免密登陆3、cookie和爬虫之间的关联有时，对一张页面进行请求的时候，如果请求的过程中不携带cookie的话，那么是无法请求到正确的页面数据。因此cookie是爬虫中非常典型且常见的反爬机制代码分析。

2023-05-23 14:55:08 659

3、数据解析的通用原理：1）指定标签的定位；2）取出标签中存储的数据或者标签属性中的数据。etree.HTML(page_text)：网站获取的页面数据加载到该对象。文本：/text（）：直系内容 //text（）：所有文本内容。2、网页中显示的数据都存储在html的标签中或标签的属性中。1、解析原理：html标签以树状的形式进行展示。最左侧//：从任意位置进行标签定位（很常用）3、标签定位（最常用到，与正则有一拼）最左侧/：从根标签开始定位指定标签。非左侧//：表示多个层级（很常用）

2023-05-23 11:18:06 808

原创 requests爬虫

在当前网页中打开抓包工具，捕获到地址栏的url对应的数据包，在该数据包的response选项卡搜索想要爬取的数据，如果搜索到了结果则表示数据不是动态加载的，否则表示数据为动态加载的。1、概念：有些数据是通过非浏览器地址栏中的url请求到的数据，而是其他请求请求到的数据，那么这些通过其他请求请求到的数据就是动态加载的数据。定位到动态加载数据对应的数据包，从该数据包中就可以提取出（1）请求的url；3、捕捉动态加载的数据（最重要的就是知道动态数据是怎么加载进去的，地址是多少，然后使用拼接得到网页完整地址）

2023-05-22 16:25:48 1988

原创 python正则表达式-正则方法

【代码】python正则表达式-正则方法。

2023-05-19 16:25:22 621

原创 python正则表达式-正则基础

2、 \W 任意一个非字数字字母下划线；\s 匹配任意一个空白字符[\f\n\r\t\v]；\S 匹配任意一个非空白字符[^\f\n\r\t\v]1、\d 任意一个数字[0-9]；\D 任意一个非数字[^0-9]；\w 任意一个数字字母下划线[a-zA-Z0-9_]；2、[0-9] 匹配任意一个数字；[a-z] 匹配任何一位小写字母；[A-Z] 匹配任何一位大写字母；[][]：[a-z][0-9] 匹配a、b和c和任意一位数字。3、[a-zA-Z] 匹配任意一位大小写字母；[]：1、[ab] 匹配a或b；

2023-05-18 15:01:58 897

原创谷歌浏览器安装ActiveX控件问题

3、最后使用在打开文件时，直接用open in IE Tab，即可直接跳转。IE浏览器常见的插件之一，如果谷歌安装，需要安装插件进行跳转。2、在打开相关文件时，提示下载“ietabhelper”；1、安装IE Tab插件；

2023-04-20 15:48:36 3287 1

原创修改360浏览器的默认浏览器无效问题

如果在修改默认浏览器的过程中，结果无效。要去看一下是否是因为360浏览器强制为默认浏览器导致的无法修改。

2023-04-14 15:19:34 448

原创默认浏览器被360浏览器拦截解决方法

3、选择windows默认使用的程序（可设置所有的日常应用）

2023-04-12 14:11:28 1286

原创 pycharm出现终端无法打开问题的解决方法

当无法打开pycharm终端，出现以下情况1、打开pycharm设置2、打开一下界面3、在shell路径中选择windows下的cmd.exe，这样就可以将cmd命令路径连接到pycharm中，无法打开windows终端即可方便下载安装包4、重新启动pycharm...

2021-10-07 12:58:17 13223 4

原创 MathType安装和word中的相关设置

文章目录MathType安装MathType与word关联找到word选项加载项通过转到添加进来即可设置 MathType设置编号(format)设置编号位置使用MathTypeMathType作为一款数学公式编辑器，自从发行以来就备受理工科人们喜爱。受助它在编辑公式方面的强大功能，MathType也在不断更新以满足人们的需要。MathType安装如需软件，私信。因为有敏感信息，无法通过百度网盘放到上边。MathType与word关联找到word选项加载项通过转到添加进来即可设

2020-08-02 14:09:14 630

原创提升算法-GBDT/XGboost/Adaboost

提升提升是一个机器学习技术，可以用于回归和分类问题，它每一步产生一个弱预测模型(如决策树)，并加权累加到总模型中，如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提升。梯度提升算法首先给定一个目标损失函数，它的定义域是所有可信的弱函数集合(基函数)；提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部最小值。提升算法给定输入向量x和输出变量y组成若干训练样本(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_

2020-07-24 16:28:56 234

原创鸢尾花数据集分类-AdaBoost\XGBoost

文章目录集成学习集成学习分类AdaboostXGBoostBoosting和Bagging代码对比实验分析集成学习构建多个分类器（弱分类器）对数据集进行预测，然后用某种策略将多个分类器预测的结果集成起来，作为最终预测结果。算法要求每个弱分类器具备一定的“准确性”，分类器之间具备“差异性”。XGBoost属于Boosting 集成算法。集成学习分类根据各个弱分类器之间是否存在有依赖关系，分为Boosting和Bagging两类。Boosting：各分类器之间有依赖关系，必须串行，比如Adaboos

2020-07-23 15:59:45 2726 1

原创鸢尾花数据集分类-随机森林(遍历特征+过拟合分析)

鸢尾花数据集分类-随机森林这个比较简单理解，是比较基础点的。现在直接对数据集的特征进行遍历，并分析过拟合情况。https://blog.csdn.net/weixin_42567027/article/details/107488666数据集代码// An highlighted blockimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom skl

2020-07-23 01:27:26 3597

原创笔记本选择合适的内存条

文章目录看电脑是否可以安装两个及以上的内存条数计算机内存规格内存条频率电压电脑支持的最大内存挑选内存条主要注意一下四点：计算机内存规格，内存条频率，电压，电脑支持的最大内存测试软件使用的是cpu-z ，根据自己的电脑位数，使用36位或者64位。百度网盘链接：https://pan.baidu.com/s/1lEcGXonmjNMSJZFZwNaTvQ提取码：gqhc看电脑是否可以安装两个及以上的内存条数因为电脑本身有两个插槽，因此我的电脑可装载的内存条数为二，还可以再安装一个内存条。计算机内

2020-07-22 21:34:33 1302

原创鸢尾花数据集分类-随机森林

文章目录随机森林Bagging数据集代码实验分析随机森林鸢尾花数据集分类-决策树https://blog.csdn.net/weixin_42567027/article/details/107487428Bagging + 决策树 = 随机森林BaggingBagging（套袋法）：从原始样本集中使用Bootstraping方法随机抽取n个训练样本，共进行k轮抽取，得到k个训练集。（k个训练集之间相互独立，元素可以有重复）针对k个训练集，训练k个模型分类问题：由投票表决产生分类结果；回

2020-07-21 15:12:46 4822 1

原创鸢尾花数据集分类-决策树

决策树决策树（Decision Tree）是一种基本的分类与回归方法，当决策树用于分类时称为分类树，用于回归时称为回归树。主要介绍分类树。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点，其中内部结点表示一个特征或属性，叶结点表示一个类。决策树学算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。根据信息增益准则的特征选择方法：对于训练数据集（或子集），计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。数据集代码

2020-07-21 14:41:24 8016 1

原创线性回归预测销量-lasso/ridge模型

ElasticNet：L1正则化与L2正则化的组合。https://blog.csdn.net/weixin_42567027/article/details/107450610模型介绍lasso 为L1正则化，惩罚系数的绝对值，惩罚后每个系数都收缩，有变量选择功能。ridge 为L2正则化，惩罚系数的平方，惩罚后，部分系数直接变成0，其他系数收缩。数据集代码// An highlighted blockimport numpy as npimport matplotlib as m

2020-07-21 01:04:41 1346

原创波士顿房价预测-ElasticNet模型

文章目录介绍数据集代码图形介绍ElasticNet又叫弹性网络回归，也就是L1-norm与L2-norm的组合。数据集代码// An highlighted blockimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.lin

2020-07-19 20:31:12 1535

原创机器分类---LR分类+模型评估

文章目录数据集模型评估ROCAUC数据集数据集有三个类别，每个类别有50个样本。模型评估ROCROC曲线是二值分类问题的一个评价指标。它是一个概率曲线，在不同的阈值下绘制TPR与FPR的关系图，从本质上把“信号”与“噪声”分开。计算方式：以FPR为横坐标，TPR为纵坐标，那么ROC曲线就是改变各种阈值后得到的所有坐标点 (FPR,TPR) 的连线。TPR：表示所有正例中，预测为正例的比例；FPR：表示所有负例中，预测为正例的比例。AUC曲线下面积（AUC）是分类器区分类的能力的度量，用作

2020-07-18 09:15:01 1110

原创 PCA降维(python+matlab)

原理https://baike.baidu.com/item/pca%E6%8A%80%E6%9C%AF/10408698?fr=aladdin在pca降维后，由于前两组数据占整体数据信息的比重很大，因此算法使用的是降维后的前两组数据。注意：python的数据是.csv格式，matlab的数据是.mat格式。目前把数据加载到csdn上，我不会弄。如果需要数据，不行的话就私聊。python代码// An highlighted blockimport pandas as pdfrom skle

2020-07-17 22:18:20 1718

原创鸢尾花数据集分析-logistic分类

文章目录数据集代码实现PCA降维logistic回归分析模型泛化能力分析数据集鸢尾花三个类别，每个类别有50个样本。其中一个类别与另外两个线性可分，另外两个不能线性可分。代码实现PCA降维最好先了解PCA原理，这样PCA后的数据就好理解了。// An highlighted blockimport pandas as pdimport numpy as npfrom sklearn.decomposition import PCAfrom sklearn.linear_model imp

2020-07-17 19:39:44 3763 1

原创赔率——计算范围内素数的概率(五种算法)

基础理论质数(prime number)又称素数,有无限个。一个大于1的自然数,如果除了1和它自身外,不能被其他自然数整除(除0以外)的数称之为素数(质数);否则称为合数。可以通过将待检测的数x除以【2-sqrt(x)】范围内的数，余数不为0，则是素数。代码实现// An highlighted blockfrom time import timeimport mathdef is_prime(x): return 0 not in [x % i for i in range(2,

2020-07-17 13:17:06 2610

原创环形公路堵车概率模型(含详细解析)

文章目录基础理论代码实现图形分析基础理论路面上有n辆车，以不同的速度向前行驶，模拟堵车问题。有以下假设：假设某辆车的当前速度是v。若前方可见范围内没车，则它在下一秒的车速提高到v+1，直到达到规定的最高限速。若前方有车，前车的距离为d，且d < v，则它下一秒的车速降低到d-1 。每辆车会以概率p随机减速v-1。、代码实现// An highlighted blockimport numpy as npimport matplotlib as mplimport mat

2020-07-17 01:23:13 1601

原创三角函数曲线(含具体分析过程)

文章目录绘制空白的三张图添加图形主图左上边的图右上边的图总程序绘制空白的三张图// An highlighted blockimport numpy as npimport matplotlib.pyplot as plt'''先画三个框'''#根据图中的四个变量进行初始化margin_border=0.05 #左边和底部到边界的距离width=0.4 #上边两个长方形的图形的长height=0.2 #上边两个长方形的图形的宽margin_between=0.1

2020-07-16 20:56:40 3723

原创股票k线图(含具体分析过程)

文章目录绘制空白框架加载股票数据k线图使用模块为mpl_finance绘制空白框架// An highlighted blockimport matplotlib.pyplot as pltimport mpl_finance as mpfimport pandas as pdfrom matplotlib.pylab import date2num#图片背景设为“ggplot”格式plt.style.use('ggplot')'''绘制空白图'''left=0.1 #左边离边缘

2020-07-16 01:18:12 1417

原创球员能力图(含具体分析过程)

文章目录球员能力图股票k线图球员能力图// An highlighted blockimport numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesplt.style.use('ggplot')#绘图风格font=FontProperties(fname=r'c:\windows\fonts\simsun.ttc',size=12) #字体与电脑匹配后正确识别

2020-07-15 14:36:46 2952 1

原创 python 实例练习：散点图(含具体分析过程)

文章目录框图绘制去掉两边的部分坐标内容绘制主图的内容左边的图右边的图根据要求绘制如下的散点图，先绘制三个框，然后再依次添加数据。需要注意的是由于散点图的值是随机产生的，因此每个绘图时产生的值都不相同。框图绘制// An highlighted blockimport numpy as npimport matplotlib.pyplot as plt#先画三个框plt.style.use('ggplot')#根据图中的四个变量进行初始化margin_border=0.1 #底部

2020-07-15 14:20:14 2463

原创极坐标绘图——正方形、三角形

极坐标绘图// An highlighted blockimport numpy as npimport matplotlib.pyplot as pltr=np.arange(1,6)#角度变化theta=[0,np.pi/2,np.pi,3*np.pi/2,2*np.pi]ax=plt.subplot(111,projection='polar')#（theta：角度，r：绘图点的位置，linewidth：线条宽度）ax.plot(theta,r,color='r',linewidth

2020-07-14 16:41:57 3028

原创 Pycharm工具下的数据可视化——图形标注

文章目录图形的注释图形的文字标注图形的区域填充曲线面积填充曲线之间面积填充补充tex公式编辑形状绘图// An highlighted blockimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.patches as mpatches图形的注释// An highlighted blockx=np.arange(-50,50)y=x*xplt.plot(x,y)#增加注释 ‘’：注释内容，xy：箭头的

2020-07-14 15:50:29 3279

原创 Pycharm工具下的数据可视化——坐标轴

文章目录坐标轴范围x轴范围调整(y轴相似)x，y轴范围的调整坐标轴刻度x轴坐标个数调整(y轴相似)x，y轴坐标个数调整坐标轴日期刻度调整x轴的格式和间隔添加新坐标轴面向对象方式pyplot方式// An highlighted blockimport numpy as npimport datetimeimport matplotlib.pyplot as pltimport matplotlib as mpl坐标轴范围// An highlighted blockx=np.arange(

2020-07-14 00:30:32 3838

原创 Pycharm工具下的数据可视化——子图

文章目录面向对象方式绘制子图面向对象方式pyplot方式同时生成多张图网格面向对象方式pyplot方式图例面向对象方式pyplot方式面向对象(Object-Oriented)：更为底层和基础的方式// An highlighted blockimport numpy as npimport matplotlib.pyplot as plt面向对象方式// An highlighted blockx=np.linspace(-10,10,5)y=x**2fig=plt.figure()

2020-07-13 23:25:28 3624

原创 Pycharm工具下的数据可视化（图形绘制）

文章目录散点图绘图外观调整折线图绘图外观调整条形图绘图外观调整两个柱状图的绘制直方图绘图外观调整双变量直方图饼图绘图突出显示箱型图绘图外观调整同时绘制多组数据样式字符串python在不同的工具下的数据可视化，有些不同的地方。但是数据构建原理是相同的。这一部分的数据构建可以参考之前的方法。绘图方式：pyplot：经典高层封装(以下为pyplot的方式)pylab：将Matplotlib和Numpy合并的模块，模拟Matlab的编程环境面向对象(Object-Oriented)：更为底层和基础的方式

2020-07-13 17:32:21 22351

原创 pandas在Ipython Notebook工具下的数据可视化

文章目录线性图子图指定索引值柱状图某行的柱状图全部数据的柱状图数据堆叠直方图某坐标下的直方图子图数据堆叠概率密度图散布图饼图Pandas的数据可视化使用matplotlib为基础组件，更基础的信息可参考matplotlib相关内容。// An highlighted block%matplotlib inlineimport pandas as pdimport numpy as np线性图一维数据二维数据子图子图的纵坐标保持一致指定索引值id 为x轴，y轴为“A，C

2020-07-13 10:50:43 248

原创 pandas在Ipython Notebook工具下的时间数据

文章目录时间日期查询时间查询具体的年、月、日计算时间间隔字符串之间的转换使用datetime创建列表Timestamp和Period相互转换重采样每五分钟重采样groupby重采样实现月份的重采样升采样周转化为日，并向前插值时期的重采样时间戳：固定的时刻。固定时期period。时间间隔nterval：由起始时间和结束时间表示，固定时期是时间间隔的特殊。时间日期在pandas中的作用：1.分析金融数据、如股票；2.分析服务器日志。时间日期查询时间查询具体的年、月、日计算时间间隔由

2020-07-13 00:03:13 156

原创 pandas在Ipython Notebook工具下的数据的导入导出

文章目录自动分配索引人工分配索引设置多级行索引处理不规则分隔符处理缺失值大数据的模块化处理数据保存到磁盘中读取的文件为.csv格式，通过文件的路径读取。自动分配索引人工分配索引设置多级行索引处理不规则分隔符处理缺失值指定缺失值针对不同的列指定缺失值大数据的模块化处理分模块计数(每次读一千行)，for循环实现提取前十个数据保存到磁盘中指定写入几列数据,并指定分隔符二进制数据的读取和保存二进制数据优点：容量小，读取速度快，缺点：不同版本间不兼容，比如Pand

2020-07-12 17:34:13 268

原创 pandas在Ipython Notebook工具下的聚合运算

文章目录自定义聚合函数根据需求增加列自定义聚合函数使用transform使用自定义函数调用transform聚合分组的另一种形式自定义聚合函数不同的列使用不同的聚合函数根据需求增加列自定义聚合函数使用transform使用自定义函数调用transform聚合分组的另一种形式输出最大的前两行用key1分组，输出最大的两行...

2020-07-12 16:04:19 125

原创 pandas在Ipython Notebook工具下的分组计算

文章目录分组计算根据列表进行分组根据字典进行分组使用函数进行分组根据多级索引分组分组计算根据列表进行分组根据索引、双层索引进行分组根据索引直接分组迭代分组按列分组根据字典进行分组按行分组计数使用函数进行分组根据索引长度分组直接分组根据多级索引分组根据索引分组...

2020-07-12 09:53:09 663

空空如也

空空如也