自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (1)
  • 收藏
  • 关注

原创 查看安装包版本常用命令

1、查看所有安装包版本号pip list2、查看特定安装包版本号pip show package 3、安装与卸载包#安装pip install package#安装指定版本pip install pandas==1.2.4#卸载pip uninstall package

2021-05-28 18:37:06 1857

原创 直方核密度分布图

代码示例import numpy as npfrom scipy.stats import normfrom scipy import statsfrom matplotlib import pyplot as pltimport seaborn as snsdef distribution(data): sns.distplot(data, fit=norm, ...

2020-04-17 11:49:30 1015

原创 网格搜索——GridSearchCV

针对有多个参数的机器学习模型,手动调参繁琐,通过网格搜索,遍历所有参数,得到最优参数网格搜索就是穷举法#网格搜索from sklearn.model_selection import GridSearchCVparam_grid=[{"kernel":["linear"],"C":[0.1, 0.2,1, 10,100],}, {"kernel":["rbf"],...

2020-01-11 14:49:52 438

原创 在csv中将字符串转换为float64

导入csv文件,发现有几列数据类型为’object‘

2019-12-17 16:22:01 3511

原创 Python入门之定义类

定义类class Employee: '所有员工的基类' empCount = 0 def __init__(self, name, salary): self.name = name self.salary = salary Employee.empCount += 1 def di...

2019-07-22 12:57:40 240

原创 python入门之保存数据-数据库

数据库保存使用pickle、shelve模块保存数据import os#工作环境os.getcwd()#查询工作目录'E:\\jupyter\\python-basic'import picklei = [1,2,3,4]with open("pd.data","wb") as f: #"wb"表示写入数据 pickle.dump(i,f)d = pickle.load...

2019-07-22 12:46:14 518

原创 统计学习方法(六)4-GaussianNB

朴素贝叶斯基于贝叶斯定理与特征条件独立假设的分类方法。属于生成模型,先学习联合概率分布 P(X,Y)P(X,Y)P(X,Y) ,后计算后验概率分布 P(Y∣X)P(Y|X)P(Y∣X)模型设输入空间 X∈RnX \in R^nX∈Rn 为 nnn 维向量的集合,输出空间为类标记集合 Yc1,c2,…,cKY {c_1,c_2,\ldots,c_K}Yc1​,c2​,…,cK​ 。X是定义在输...

2019-07-22 12:38:12 4981

原创 统计学习方法(五)3-KNN

K近邻k-NN是一种基本的分类与回归方法,可以进行多分类。分类时,对于新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。k值的选择、距离度量及分类决策规则(多数表决)是k近邻法的三个基本要素。1、模型特征空间中两个实例点的距离是两个实例点相似程度的反映,常见的距离度量包括(欧式距离、LpL_pLp​ 距离或Minkowski距离)1.1距离度量设特征空间 XXX ...

2019-07-22 12:33:34 205

原创 统计学习方法(四)2-Iris_perceptron

感知机二分类问题的线性分类模型,输入为实例的特征向量 x∈Rnx \in R^nx∈Rn,输出为实例的类别{+1,-1}。数据集线性可分,即存在超平面 S ,w∗x+b=0w*x +b = 0w∗x+b=0 能够将数据集的正实例和负实例完全正确的划分到超平面的两侧。感知机学习的目的是求出将训练数据进行线性划分的分离超平面,属于判别模型。模型f(x)=sign(w∗x+b)f(x) = s...

2019-07-22 12:25:21 460

原创 统计学习方法(三)1-least_sqaure_method

目录1、最小二乘法拟合曲线2、正则化3、简单交叉验证4、样条插值1、最小二乘法拟合曲线[第一章]最小二乘法根据高斯-马尔科夫定理,在线性回归模型( y=βx+εy = \beta x+\varepsilony=βx+ε )中,如果误差 ε\varepsilonε 满足零均值、等方差、互不相关,则最小二乘法估计的回归系数 β^\hat \betaβ^​ 满足最佳线性无偏估计,即方差最...

2019-07-22 11:24:40 275

原创 Python入门之if和while语句

if语句和While语句if语句,如果满足某种情况就继续往下执行代码块,break表示跳出循环,continue表示重新开始循环while语句,用来在任何条件为真(需要定义iteration variables)的情况下重复执行一个代码块,一般用作无限循环a = "python","php"type(a)tuples = "python"if "p" in s: s = ...

2019-07-22 10:58:15 161

原创 Python入门之for语句

for语句for语句可以为一个集合(序列和其他可迭代对象)的每个元素都执行一个代码块字符串、元组、列表、字典都属于可迭代对象如果能用for循环,尽量不用while循环a = "python"for i in a: print(i)pythona = "python"for i in range(len(a)): print(a[i])pyth...

2019-07-22 10:44:51 524

转载 Flattening the nested list

转载,整理嵌套列表的压平如何将多维列表转化成一维的?对于规范的且嵌套维度较低的多维列表,python中有很多方法可以实现:1、简单的多维列表转化a=[[1,2],[3,4],[5,6]]print([j for i in a for j in i])[1, 2, 3, 4, 5, 6]#orfrom itertools import chainprint(list(chai...

2019-07-22 10:37:52 177

原创 有趣的R实验(1)

用R画出心形函数心形线,是一个圆上的固定一点在它绕着与其相切且半径相同的另外一个圆周滚动时所形成的轨迹,因其形状像心形而得名。n=50000;r=0.7;r_e=(1-r*r)^.5;X=rnorm(n); #得到n个服从整体分布的点Y=X*r+r_e*rnorm(n);Y=ifelse(X>0,Y,-Y); #如果X>0,得到Y,否则得到-Yplot(X,...

2019-07-22 10:08:03 450

原创 在jupyter中安装R packages

问题:已经在juputer安装R Kernal,但运行R代码时,发现有一些R packages未安装上,需要在Anaconda Prompt安装1、install tseriesconda install -c r r-tseries=0.10_35结果:顺利安装2、install forecastconda install -c r r-forecast参考文献:[1]why ...

2019-05-31 13:17:54 1229

原创 update sklearn in anaconda

from sklearn import tree 错误:AttributeError: type object ‘sklearn.tree._tree.TreeBuilder’ has no attribute ‘reduce_cython’尝试更新sklearn,发现问题解决打开 anaconda promptconda update scikit-learn参考文献1、an...

2019-05-06 12:53:15 512

转载 SQL——查询表生成新表

这是一道从网上找来的题,据说是Alibaba2011年数据分析师招聘的题目,现在SQL Server下解答。题目如下:根据要求写出SQL表A结构如下:Member_ID(用户的ID,字符型)Log_time(用户访问页面时间,日期型(只有一天的数据))URL(访问的页面地址,字符型)要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)。...

2019-04-25 20:28:56 9062 1

原创 多分类问题考察指标:宏平均(Macro-averaging)和微平均(Micro-averaging)

当我们的问题属于多分类问题时,考察在不同类别下综合考察分类器的优劣,需要引入宏平均(Macro-averaging)、微平均(Micro-averaging)。宏平均(Macro-averaging)是指所有类别的每一个统计指标值的算数平均值,也就是宏精确率(Macro-Precision),宏召回率(Macro-Recall),宏F值(Macro-F Score),其计算公式如下:宏查准率...

2019-04-24 21:19:24 5669

原创 爬取微信朋友圈信息-可视化

之前自学了pyecharts就想练一下手,画一下基本的柱状图和地图;用wordcloud 尝试生成词云;爬取微信信息的代码是在网上找的;后面的代码就是基本的信息整理

2019-03-20 21:57:08 6871

原创 统计学习方法(二)统计方法 = 模型 + 策略 + 算法

统计方法 = 模型 + 策略 + 算法模型在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。1、概率模型VS非概率模型1.1 概率模型(Probabilistic Model)假设空间定义为条件概率的集合H=P|P(X|Y) H = \text{{P|P(X|Y)}} H=P|P(X|Y)...

2019-03-18 18:34:37 1095

原创 统计学习方法(一)监督学习

输入空间、输出空间、特征空间**输入空间(X):**所有可能取值的空间,可以是连续或离散的,有时候也可以是欧式空间RnR^nRn**输出空间(Y):**所有可能取值的空间,可以是连续或离散的,有时候也可以是欧式空间RnR^nRn一般输入空间远小于输出空间**特征空间:**每个实例都由特征向量表示,输入x的特征向量记作x=(x(1),x(2),…,x(i),…,x(n))T x = (x^...

2019-03-10 20:26:35 691

原创 为何选用F1值(调和平均数)衡量P与R?

二分类问题的性能度量为何选用F值?已知混淆矩阵prediction positiveprediction negativeactuality positiveTrue Positive(TP)False Negative(FN)actuality negativeFalse Positive(FP)True Negative(TN)其中:Pr...

2019-03-08 15:48:05 5549 6

原创 在jupyter中安装IR kernel

在jupyter中安装R kernal C:\Users\DELL>conda install -c r r-irkernel确认是否安装上R(base) C:\Users\DELL>R安装kernelspec来告诉Jupyter有关IRkernel的信息,选项user = FALSE,以便在全局环境中安装IRkernel::installspec(user=FALSE...

2019-03-04 14:15:40 3507

SQL思维导图.xmind

关于SQL常用函数的系统整理,主要涉及连接函数、分组函数、聚合函数、字符函数、数字函数、时间函数,希望可以对你有帮助

2020-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除