自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

YZXnuaa的博客

很想进步的人

原创 【Python】PIL模块

Python自建库,在爬虫等基础应用中更加简单好记,做整理以备自查。 目录 Image模块 open类、Save类、format类、Mode类、convert类、Size类、Info类、new类、Copy类、Crop类、Paste类、Filter类、Blend类、Split类、Composi...

2019-06-19 03:48:24 183 0

原创 【Python】爬虫汇总

主要流程: 获取url 下载网页 从网页中找寻自己需要的保存(解析+输出) 主要概念 URL:分大小写 统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器...

2019-06-06 02:08:54 104 0

原创 常见Python数据分析函数算法汇总

一、函数 1.Numpy 官网 生成数列 arange(min,max,间隔) 随机数random 混合生成数组meshgrid(数列1,数列2) 多维数组换为一维数组 ravel()、flatten()、squeeze() 索引排列 算数函数 切片 筛选 索引 = np.whe...

2019-04-16 17:47:50 359 0

原创 pandas问题记录

1、pandas.read_csv()函数,读取文件数据时,由于分隔符为'::',弹出如下警告        警告:ParserWarning: Falling back to the 'python' engine because the 'c...

2018-09-18 01:41:38 175 0

转载 Python库

这又是一个 Awesome XXX 系列的资源整理,由 vinta 发起和维护。内容包括:Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。伯乐在线已在 GitHub 上发起「Python 资源大全中文版」的整理。欢迎扩...

2018-06-21 14:54:45 365 0

转载 见过的最好的PCA解析

1.概述        PCA:主成分分析,一种常用的数据分析方法,不管是在机器学习还是数据挖掘中都会用到。PCA主要通过求数据集的协方差矩阵最大的特征值对应的特征向量,由此找到数据方差最大的几个方向,对数据达到降维的效果,将一个n维的向量降低到d维,其中d<n。本文主要从方差最大化...

2018-06-20 15:00:51 1540 0

转载 Dictionary Learning(字典学习、稀疏表示以及其他)

第一部分 字典学习以及稀疏表示的概要字典学习(Dictionary Learning)和稀疏表示(Sparse Representation)在学术界的正式称谓应该是稀疏字典学习(Sparse Dictionary Learning)。该算法理论包含两个阶段:字典构建阶段(Dictionary G...

2018-04-23 18:12:54 3310 1

转载 随机采样方法整理与讲解(MCMC、Gibbs Sampling等)

本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:) 背景 随机模拟也可以叫做蒙特卡罗模拟(Mon...

2018-03-21 14:36:22 349 0

原创 【Python】小案例

6. 斐波那契数列 !! # !/usr/bin/python # -*- coding: UTF-8 -*- def fib(n): a, b = 1, 1 for i in range(n - 1): a, b = b, a + b return...

2018-02-06 16:25:52 831 0

原创 beautifulsoup4 bs4 find_all & find 函数解析

假定soup是我们下载下来的网页的对象了 soup = BeautifulSoup(a, "html.parser") # 第一种,直接将属性名作为参数名,但是有些属性不行,比如像a-b这样的属性 soup.find_all('p', id = &#...

2019-07-28 20:00:16 2420 0

原创 上传git

什么是git?git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。git是一种工具,它能更好的让我们管理代码。很多时候如果我们需要保持本地代码和github代码版本一致,那么我们就会用到git这个工具。git工具不仅可以让我们克隆别人的或者自己的远程代码,还可以...

2019-07-22 17:27:53 74 0

原创 爬虫解析器

将整个网页解析成一个DOM树 常用库BS

2019-06-19 00:36:36 120 0

原创 【Python】bs4库

from bs4 import BeautifulSoup import re html_doc = """ <html><head><title>The Dormouse's story</title>&l...

2019-06-15 15:06:03 373 0

原创 【Python】urllib库——下载网页、爬虫汇总

注:urllib2,这个包是基于python2的,官方已经对python2停止更新了并且不再免费,我觉得这个urllib2没必要再学习和使用 urllib这个是python的标准库,在python3里整合了python2的urllib和urllib2,有时间的可以学习一下。 urllib3,...

2019-06-13 12:26:39 2308 0

原创 No module named 'cookielib'或No module named 'urllib2'或raw_input

1.ModuleNotFoundError: No module named 'cookielib' Python3中,importcookielib改成 importhttp.cookiejar,然后方法里cookielib也改成http.cookiejar。 2...

2019-06-12 23:50:24 624 0

原创 【Python】常用字符串处理

第一步,打开eclipse开发工具,新建一个py文件;定义一个变量a1,赋值为字符串,然后调用endswith方法,判断问号是不是这个字符串结尾,如下图所示: 第二步,修改第一步的代码,判断name字符串是不是a1的结尾,返回结果为False,说明不是,如下图所示: ...

2019-06-11 21:52:17 67 0

原创 【python】 os库——查看、修改文件属性

In [132]:import os # 查看文件属性 In [133]: os.stat('package-lock.json') Out[133]: os.stat_result(st_mode=33206, st_ino=7036874417947173, st_dev...

2019-06-11 21:50:49 660 0

原创 【Python】os库——批处理

注:字符串常见函数 1.提取目录:在批处理中时常会用到文件夹的相互转换-------主要是通过os模块实现 path=os.getcwd() #path就是当前的工作目录 print(path) # '/ZC/Download/data' 2.更改当前目录 os.c...

2019-06-11 19:19:41 164 0

原创 特征脸——PCA应用

一、特征脸 特征脸EigenFace从思想上其实挺简单。就相当于把人脸从像素空间变换到另一个空间,在另一个空间中做相似性的计算。这么说,其实图像识别的基本思想都是一样的,首先选择一个合适的子空间,将所有的图像变换到这个子空间上,然后再在这个子空间上衡量相似性或者进行分类学习。那为什么要变换到另一...

2019-06-01 01:34:31 153 0

原创 【数学基础】 线性代数以及符号编总

1基本概念和符号 线性代数可以对一组线性方程进行简洁地表示和运算。例如,对于这个方程组: 这里有两个方程和两个变量,如果你学过高中代数的话,你肯定知道,可以为x1 和x2找到一组唯一的解 (除非方程可以进一步简化,例如,如果第二个方程只是第一个方程的倍数形式。但是显然上面的例子不可简化,是...

2019-05-24 20:36:01 3911 0

转载 加速神经网络训练 (机器学习)

包括以下几种模式: Stochastic Gradient Descent (SGD) Momentum AdaGrad RMSProp Adam 越复杂的神经网络 , 越多的数据 , 我们需要在训练神经网络的过程上花费的时间也就越多. 原因很简单, 就是因为计算量太大了. 可是往往...

2019-05-20 20:13:00 90 0

原创 【Pandas】DataFrame 速查

基本操作 >1.查看前5个值和后三个值 >df2.head() >df2.tail(3) >2.查看列名,值,以及索引 >df2.columns >df2.values >df2.index >3.查看统计数据 >df2.describ...

2019-05-20 01:00:22 96 0

原创 信息熵常见定义

信息论(Information Theory)是概率论与数理统计的一个分枝。用于信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩和相关课题。本文主要罗列一些基于熵的概念及其意义,注意本文罗列的所有loglog都是以 2 为底的。 信息熵 在物理界中熵是描述事物无序性的...

2019-05-14 21:57:04 471 0

原创 KKT条件

对于含有不等式约束的优化问题,如何求取最优值呢?常用的方法是KKT条件,同样地,把所有的不等式约束、等式约束和目标函数全部写为一个式子L(a, b, x)= f(x) + a*g(x)+b*h(x),KKT条件是说最优值必须满足以下条件: 1. L(a, b, x)对x求导为零; 2. h(x...

2019-05-06 01:22:18 114 0

转载 SMO算法

SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm ...

2019-05-05 23:35:49 1561 0

转载 【Sklearn】DecisionTreeClassifier

1.scikit-learn决策树算法类库介绍     scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor...

2019-04-27 09:51:03 547 0

转载 【Graphviz】绘制流程图

前言 日常的开发工作中,为代码添加注释是代码可维护性的一个重要方面,但是仅仅提供注释是不够的,特别是当系统功能越来越复杂,涉及到的模块越来越多的时候,仅仅靠代码就很难从宏观的层次去理解。因此我们需要图例的支持,图例不仅仅包含功能之间的交互,也可以包含复杂的数据结构的示意图,数据流向等。 但是,...

2019-04-26 19:37:01 329 0

原创 【Sklearn】决策树可视化 (未完成)

个人总结困难之处有三点: 1、属性存在二元属性、标称属性、序数属性、连续属性四种,训练方式没有可视化比较混乱; 2、每个步骤有足够的意义,所以需要观察分类过程; 3、不同于难以解释的神经网络,或者分离超平面可以用一个式子表达,决策树划分结果通常需要语言描述; 1、等高线方法,只能观察两种特...

2019-04-26 18:19:15 124 0

原创 【Graphviz】数据网络的布局软件

一、认识graphviz 接触graphviz是几年前的一个项目,要画出数据网络的布局,使用graphviz能比较清楚的画出数据之间的关系。 可以在gallery中查看他能完成的图形:http://www.graphviz.org/gallery/。graphviz最方便的地方在于能够很快的清晰...

2019-04-26 17:48:52 194 0

转载 【Sklearn】决策树可视化 InvocationException: GraphViz's executables not found

仅仅安装pydotplus不够,需要安装独立Graphviz软件 一、安装Graphviz 网站:http://www.graphviz.org/download/ 下载msi文件 直接安装,完成之后添加环境变量: 在path中将Graphviz的bin的目录路径添加上;...

2019-04-26 17:17:20 113 0

原创 【Sklearn】tree.export_graphviz 可视化函数

Parameters: decision_tree:decision tree regressor or classifier The decision tree to be exported to GraphViz. out_file:file object or ...

2019-04-26 15:15:35 4329 0

转载 【Numpy】ravel()、flatten()、squeeze()

numpy中的ravel()、flatten()、squeeze()都有将多维数组转换为一维数组的功能,区别: ravel():如果没有必要,不会产生源数据的副本 flatten():返回源数据的副本 squeeze():只能对维数为1的维度降维 另外,reshape(-1)也可以“拉平”多维数...

2019-04-26 12:52:46 59 0

原创 Meshgrid函数 (未完成)

Meshgrid函数的基本用法 meshgrid函数用两个坐标轴上的点在平面上画网格。 用法:   [X,Y]=meshgrid(x,y)   [X,Y]=meshgrid(x)与[X,Y]=meshgrid(x,x)是等同的   [X,Y,Z]=meshgrid(x,y,z)生成三维数...

2019-04-26 00:27:40 84 0

原创 Python Matplotlib 等高线

CS = plt.contour(X, Y, Z, n(层数), alpha=0.75(透明度),cmap=plt.cm.hot(渐变标准)) # cmap解析 其中前两个参数x和y为两个等长一维数组,第三个参数z为二维数组(表示平面点xi,yi映射的函数值)。 由于contourf可以填充...

2019-04-26 00:15:58 134 0

原创 Python Matplotlib属性 cmap

cmap即colormaps 获取图谱使用plt.get_cmap(‘xxx’) 其值有很多,如官网:https://matplotlib.org/users/colormaps.html 或https://matplotlib.org/examples/color/colormaps_refer...

2019-04-26 00:06:34 3584 0

转载 max()中key的使用

1.找出绝对值最大的元素 t=[1,5,-6,-4] ans=max(t,key=lambda k:abs(k)) print(ans) #-6 1 2 3 2.找出句子中最长的单词 x=’i want a banana’ ans=max(x.split(),key=len) Print(a...

2019-04-25 09:06:09 269 0

转载 返回一个列表中出现次数最多的元素

def zuiduo_yuansu(): a=list(input('请输入任意个元素:')) print(max(a,key=a.count)) zuiduo_yuansu() lt = ['李白', '李商隐', '...

2019-04-19 13:17:48 374 0

原创 kNN Python 机器学习算法 代码实现

一、原理 看最靠近自身的k个是什么,那自己就是什么。 属于消极分类,不需要训练模型 需要计算全局距离,当samples很大时很难使用(当然可以抽样) 二、代码 import numpy as np from sklearn.datasets import load_iris impor...

2019-04-19 02:38:43 111 0

原创 Python 饼图

一、饼状图应用原理 二、demos from sklearn.datasets import load_iris import matplotlib.pyplot as plt import numpy as np iris = load_iris() data = iris.data tar...

2019-04-19 00:42:23 762 0

原创 盒装图

二、demos from sklearn.datasets import load_iris import matplotlib.pyplot as plt import numpy as np iris = load_iris() data = iris.data target = iri...

2019-04-18 22:03:04 223 0

提示
确定要删除当前文章?
取消 删除