自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 爬虫乱码问题

爬了某个网页,发现编码是'ISO-8859-1'直接response·.text发现乱码了需要解码处理一下:import requestsfrom lxml import etree response = requests.get("https://www.51test.net/show/9418536.html",verify=False)html_tree = ...

2019-11-14 16:24:26 205 1

原创 发现一个三维画图库

#导入包import pandas as pdimport numpy as npfrom sklearn import clusterfrom sklearn.preprocessing import StandardScalerfrom itertools import cycle, isliceimport plotlyimport plotly.graph_objs as ...

2019-11-04 17:17:12 596

原创 MySQL查询缓存和缓冲池的区别

一 缓冲池在InnoDB存储引擎中,一部分数据会被放到内存中,缓冲池则占了这部分内存的大部分,它用来存储各种数据的缓存,包括:数据页,插入缓存,自适应索引哈希,索引页,锁信息,数据字典信息等。InnoDB存储引擎基于磁盘文件存储,访问物理硬盘和在内存中进行访问,速度相差很大,为了尽可能弥补这两者之间的I/O效率的差值,就需要把经常使用的数据加载到缓冲池中,避免每次访问都进行磁盘I/O....

2019-11-03 10:55:31 1429

原创 python中__init__ 和__new__的区别

__new__是一个类方法,它返回的是一个实例__init__是一个实例方法,它什么都不返回(如果返回None之外的东西会报错)事实上,创建一个类分2步。第一步,创建类的对象,就是new;第二步对类进行初始化,就是init只有在__new__返回一个新创建属于该类的实例时,当前类的 __init__才会被调用。(换言之,如果new方法没有return一个属于该类的实例,则init方...

2019-11-02 13:46:27 143

原创 数据分析———作图

比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图联系:查看两个或两个以上变量之间的关系,比如散点图构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图分布:关注单个变量,或者多个变量的分布情况,比如直方图散点图:import matplotlib.pyplot as pltimport seaborn as snsplt.scatter(...

2019-11-02 12:52:22 444

原创 super的用法和注意事项

super第一个参数是指定调用谁的直接父类,第二个参数指定当调用时,传递什么作为方法的第一个参数,一般如果是实例方法的话第一个参数是self,类方法的话第一个参数为cls如果子类直接调用 父类的方法,可以直接默认使用super()即可,如果需要调用爷爷或者再以上的父类,则需要传参进去。使用爷爷类的实例方法:class GrandFather: def gfprint(se...

2019-10-27 22:50:51 453

原创 python实例方法,类方法,静态方法

实例方法,类方法,静态方法实例方法 第一个参数必须是self实例可以访问实例方法,类方法,静态方法类方法用@classmethod修饰,第一个参数是类本身类可以访问类方法,静态方法。所以有的方法不需要实例化的话,可以用类方法。静态方法用@staticmethod修饰,对于第一个参数没有实质要求静态方法是指这个方法不想单独作为函数,跟着类走,就有了命名空间,但是他非实例和类必...

2019-10-26 16:03:42 263

原创 python的类变量和实例变量,以及私有属性的访问

1 类变量对类和实例都可见所有实例共享类变量2 实例属性先去实例.__dict__这个字典中去查找属性,找不到的话去类中(实例.__class__.__dict__)中寻找,再找不到的话就报错。3 私有属性如何访问带双划线开头的即为私有属性,直接访问是获取不到该属性的。但是通过_类名+属性名的方法可以获取到并修改。但是私有属性,强烈不建议修改它,仅作为一个知识点...

2019-10-26 14:40:07 535

原创 朴素贝叶斯

朴素贝叶斯分类最适合的场景是文本分类、情感分析和垃圾邮件识别。朴素贝叶斯常用于自然语言处理NLP的工具。高斯朴素贝叶斯: 特征变量是连续变量,符合高斯分布,比如人的身高,物体的长度多项式朴素贝叶斯:特征变量是离散变量,符合多项分布,在文档分类中特征变量提现在一个单词出现的次数,或者是单词的TF-IDF值等TF-IDF TF Term Frequency 和 Inverse Doc...

2019-10-20 15:28:15 114

原创 itertools

itertools是个python自带的工具包,里面的工具就如itertools字面意思一样,都是迭代器工具。什么是迭代器呢?有__iter__()方法和next()方法的就是迭代器了。(生成迭代器的方法可以用iter方法转化可迭代对象,列表,字典,元组,字符串等数据类型都是可迭代对象,另外可以用生成器,用类的方法生成迭代器)迭代器都是可迭代对象,但是可迭代对象不一定是迭代器。(类别,...

2019-10-19 22:29:55 276

原创 一个好用的数据总览工具

import pandas_profilingpfr = pandas_profiling.ProfileReport(df)pfr.to_file('data.html')几行代码就可以输出一份数据报告,包含数据总览,各变量情况,变量相关性,缺失值,数据样本等信息。...

2019-10-19 09:10:06 162

原创 pandas实用函数

一 统计汇总函数:import pandas as pds = pd.Series()s.min s.maxs.sums.means.count # 非缺失元素的个数s.size #所有元素的个数s.medians.vars.stds.quantile #计算任意分位数s.cov #计算协方差s.corr #计算相关系数s.sk...

2019-10-11 23:59:28 129

原创 datetime,timestamp和str的互相转化

一 datetime,timestamp和Timedeltadatetime以毫秒形式存储日期和时间。而datetime.timedelta表示两个datetime对象之间的时间差。可以给datetime对象加上或减去一个或多少timedelta,这样会产生一个新对象。二 datetime转str直接通过str方法或者通过strftime方法三 str转date...

2019-10-09 22:57:50 2552

原创 excel文件转dataframe转存mysql并计算

excel文件转存mysql数据库主力函数为conn = create_engine("mysql+pymysql://root:123@localhost/stock_investment",encoding='utf-8') # user:pass...

2019-10-09 21:47:00 167

原创 爬取沪深股票并找出最近1个月创出新高的股票

import requestsfrom lxml import etreeimport reimport pandas as pdresult = set()# 获取沪市股票代码(6开头)web = requests.get('http://quote.eastmoney.com/stock_list.html#sz')html = etree.HTML(web.text)h...

2019-10-03 22:00:00 635

原创 sort函数和sorted函数的异同

sort函数和sorted函数都是python内置的排序函数。那为什么会有2个排序函数呢?总结一下,虽然都是内置的排序功能,但是还是有差异的。1 sort原位排序,无返回值;sorted保留原对象,返回一个排序完的对象。2 sort只能对列表进行排序;sorted可以对任何可迭代对象iterable(字符串,列表,元组,字典等)进行排序3 sorted返回新对象,所以耗费较多资源。...

2019-09-29 11:26:33 4495

原创 微信聊天记录制作词云图

1 使用iTunes 备份iphone;2在C:\Users\xxxx\AppData\Roaming\Apple Computer\MobileSync\Backup路径中找到备份文件夹3打开备份文件夹找到其中的Manifest.db文件这个文件是SQLite数据文件,用Navicat Premium创建一个SQLite,加载这个数据库文件就可以。可以看到这个db文件是一个数据库...

2019-09-27 16:32:21 994

原创 python的浅拷贝,影子拷贝和深拷贝

一 浅拷贝,也叫浅复制,是引用传递。比如有2个列表,l1=[1,2,3],l2=l1,这就是浅拷贝,他们共同指向同一块内存地址。既然他们指向同一块内存,那么你修改其中一个列表的值,自然另一个列表的值也被修改了。如果不希望修改一个列表的值导致另一个列表的值也被修改,就不能使用这种l2=l1的赋值操作,需要使用影子拷贝。二 影子拷贝可以看到两个列表的id不同,说明他...

2019-09-23 16:56:21 560

原创 join语句的过程

如果有2个大小不同的表做join,应该用哪个表来做驱动表?我们先设计2个相同的表结构,一个大表插入一万条数据,一个小表插入一千条数据。CREATE TABLE `small_table` ( `A` INT(11) NOT NULL, `B` INT(11) NULL DEFAULT NULL, `C` INT(11) NULL DEFAULT NULL, ...

2019-09-22 20:30:22 240

原创 SQL语句执行得慢的原因

讨论一下SQL语句执行得慢的原因有哪些。1 偶尔很慢i:那么数据库可能在刷脏页。redo log写满了需要同步到磁盘。(InnoDB在处理更新语句的时候,只做了一个写redo log的操作。redo log写满了就需要同步到磁盘)ii:表可能被锁了解决办法:可以通过show full processlist来查看当前的状态是否被锁了。2一直这么慢i字段没有索...

2019-09-17 14:15:37 125

原创 逻辑斯蒂回归

一:二元逻辑回归模型二项逻辑斯蒂回归模型是如下的条件概率分布:其中,Y为输出,w称为权值向量,b称为偏置。逻辑斯蒂回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件发生的几率是p/1-p该事件的对数几率或logit函数是这就是说,在逻辑斯蒂回归模型中,输出Y=1的对数几率是输入x的线性函数。...

2018-06-04 20:28:21 342

原创 决策树

决策树是一种基本的分类与回归方法。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。一 决策树与if-then规则将决策树转换成if-then规则的过程是这样的:由决策树的根节点到叶节点的每一条路径构建一条规则路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。决策树的路径或其对应的if-then规则集合具有一个重要的性质:互...

2018-05-31 22:44:58 630

原创 k近邻法

a.K近邻算法过程输入:训练数据集 其中,,为实例的特征向量,为实例的类别,i=1,2,...N;实例特征向量x输出:实例x所属的类y。(1)根据给定的距离度量,在训练集T中找出与x最近邻的k个点,涵盖这k个点的x的邻域记作;(2)在中根据分类决策规则(如多数表决)决定x的类别y:y=i=1,2,...N;j=1,2,...,K,I为指示函数,即当时I为1,否则I=0K近邻法的特殊情况是k=1的情...

2018-05-24 20:41:23 211

原创 感知机模型

a.感知机模型 x是n维实数空间,sign是符号函数,w和b为感知机模型参数,w叫作权值或者权值向量,b叫作偏置。b.感知机模型的损失函数其中M为误分类点的集合。这个损失函数就是感知机学习的经验风险函数。显然,损失函数L(w,b)是非负的。如果没有误分类点,损失函...

2018-05-23 19:46:44 282

原创 统计学习方法概论

统计学习方法概论 a.有监督、无监督的比较,分类和回归的比较 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出作出一个好的预测(注意这里的输入、输出是指某个系统的输入与输出,与学习的输入与输出不同)监督学习是极其重要的统计学习分支,也是统计学习中内容最丰富、应用最广泛的部分。无监督学习没有输出标签训练数据通常是一个向量和一个预期输出组成,如果函数的输出是一个连续的数值,则称...

2018-05-23 18:45:29 133

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除