自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

修炼之路

路漫漫其修远兮,吾将上下而求索

  • 博客(25)
  • 资源 (21)
  • 问答 (1)
  • 收藏
  • 关注

原创 Ubuntu报unable to mount root fs on unknown-block(2,0)

现象:今天早上,Ubuntu关机重启之后,开机左上角一个光标一直闪,无法进入系统。回顾原因:在几天之前,当时安装Ubuntu的时候,给/home分区的内存太小了,后面一直再报内存不足的问题,为了解决这个问题。因为当时用的是500G的固态硬盘,剩下的300多G被挂载到了其他的节点。所以,我就通过gpart分区软件,将300G的挂载点,合并到/home下面。先将300G的挂载点格式化,然后

2018-01-30 21:40:24 22395 1

原创 支持向量机之使用核SVM解决非线性分类问题

支持向量机算法除了能对线性问题进行分类之外,还可以对非线性可分的问题进行分类,我们可以很容易的使用“核技巧”来解决非线性可分问题。一、非线性问题在非线性的问题中,最经典的非线性问题,莫过于对于异或问题的分类了。下面,我们通过python来生成一个异或的数据集,代码如下if __name__ == "__main__": #随机生成200个点

2018-01-29 22:39:11 13479 4

原创 支持向量机之SMO算法

一、SMO算法序列最小化优化算法(Sequential minimal optimization,SMO)是一种用于解决支持向量机训练过程中所产生优化问题的算法。SMO由微软研究院的约翰·普莱特在1998发明,用于训练SVM。在SMO之前,SVM的训练必须使用复杂的方法,并需要昂贵的第三方二次规划工具。SMO算法将大优化问题分解为了多个小优化问题来求解的,这些小优化问题通常比较容易求解,并且对

2018-01-28 22:12:02 3654 5

原创 机器学习实战源码和数据集下载

官网下载地址:下载地址,找到source code下载即可。点击之后也许无法访问。git下载地址:https://github.com/pbharrin/machinelearninginaction可能在使用GitHub下载的时候会有点慢,最后我再附上百度云下载地址。百度云盘下载地址:链接:https://pan.baidu.com/s/1qZ31gwW 密码:q4fo如

2018-01-21 21:49:09 43249 63

原创 支持向量机之拉格朗日乘子法

在上一篇文章中,我们介绍过了支持向量机算法的核心思想,在这篇文章中,将介绍使用拉格朗日乘子法来最大化支持向量与超平面之间的距离,下面可能涉及到的数学计算比较多,我会尽可能的细化求解过程。一、找目标函数先看一张图我们将三角形的图标分为1类,将正方形图标分为-1类,通过红色直线(超平面)将1类和-1类分割开来,而其中1类的点和-1类的点距离超平面最近的点被称为支持向量,也就图中用红

2018-01-20 17:52:53 2402

原创 初识支持向量机(support vector machine)

在学习机器学习的时候,当学到支持向量机的时候可能会有一点懵了,这篇文章主要是像大家介绍一下支持向量机的思想,不会有过多的数学。在介绍之前,先看一个非常有意思的故事,故事来源于知乎,原文链接,故事是这样的:在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”于是

2018-01-16 22:47:30 2916

原创 pandas保存文件

1、使用DataFrame的to_csv函数保存文件在使用DataFrame的to_csv保存文件的时候,会默认使用逗号作为分隔符,如果没有设置行列索引,也没有禁用行列索引保存的话,保存文件的时候,会默认加上由0开始的行列索引。 data = pd.DataFrame(np.arange(9).reshape(3, 3)) data.to_csv("data.csv")dat

2018-01-14 21:30:46 82209

原创 pandas逐块读取文件

使用pandas来处理文件的时候,经常会遇到大文件,而有时候我们只想要读取其中的一部分数据或对文件进行逐块处理。data.csv1、读取文件中前部分通过nrows参数,来设置读取文件的前多少行,nrows是一个大于等于0的整数。 data = pd.read_csv("data.csv",nrows=5) print(data) '''

2018-01-14 21:24:54 7957

原创 使用pandas读取文件

pandas可以将读取到的表格型数据(文件不一定要是表格)转成DataFrame类型的数据结构,然后我们可以通过操作DataFrame进行数据分析,数据预处理以及行和列的操作等。下面介绍一些常用读取文件的方法1、read_csv函数功能:从文件、URL、文件新对象中加载带有分隔符的数据,默认分隔符是逗号。data.txta,b,c,d,name1,2,3,4,python5,6

2018-01-14 16:19:44 86571 6

原创 pandas的整数索引

在使用pandas的过程也许你遇到过一个比较头疼的问题,为什么有的时候能用整数索引有的时候又不能用,下面我们就一起来看一下为什么。一、Series的整数索引 s = pd.Series(np.arange(3),index=["a","b","c"]) print(s[-1]) #2 s1 = pd.Series(np.arange(3)) print

2018-01-11 22:01:28 4475

原创 pandas将DataFrame的列变成行索引

pandas提供了set_index方法可以将DataFrame的列(多列)变成行索引,通过reset_index方法可以将层次化索引的级别会被转移到列里面。1、DataFrame的set_index方法 data = pd.DataFrame(np.arange(1,10).reshape(3,3),index=["a","b","c"],columns=["A","B","C"]

2018-01-11 21:50:26 38915 1

原创 pandas的层次化索引

一、层次化索引层次化索引(hierarchical indexing)是pandas的一个重要的功能,它可以在一个轴上有多个(两个以上)的索引,这就表示着,它能够以低维度形式来表示高维度的数据。二、Series的层次化索引 # Series的层次化索引,索引是一个二维数组,相当于两个索引决定一个值 # 有点类似于DataFrame的行索引和列索引 s = Seri

2018-01-10 21:49:43 13857

原创 pandas处理缺失值

在实际应用中对于数据进行分析的时候,经常能看见缺失值,下面来介绍一下如何利用pandas来处理缺失值。常见的缺失值处理方式有,过滤、填充。一、缺失值的判断pandas使用浮点值NaN(Not a Number)表示浮点数和非浮点数组中的缺失值,同时python内置None值也会被当作是缺失值。a、Series的缺失值判断 s = Series(["a","b",np.na

2018-01-09 20:59:20 32916 2

原创 pandas的唯一值、值计数以及成员资格

1、Series唯一值判断 s = Series([3,3,1,2,4,3,4,6,5,6]) #判断Series中的值是否重复,False表示重复 print(s.is_unique) #False #输出Series中不重复的值,返回值没有排序,返回值的类型为数组 print(s.unique()) #[3 1 2 4 6 5]

2018-01-08 21:55:32 14705

原创 pandas的相关系数与协方差

1、输出百分比变化以及前后指定的行数 a = np.arange(1,13).reshape(6,2) data = DataFrame(a) #计算列的百分比变化,如果想计算行设置axis=1 print(data.pct_change()) ''' 0 1 0 NaN NaN

2018-01-08 21:36:48 16667

原创 pandas的汇总和计算描述统计

pandas提供了很多常用的数学和统计方法,其中大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。一、DataFrame的sum和mean方法 a = [[1,np.nan,9],[2,8,3],[3,5,np.nan]] data = DataFrame(a,index=["a","b","

2018-01-07 21:37:58 17560

原创 pandas带有重复索引操作

有的时候,可能会遇到表格中出现重复的索引,在操作重复索引的时候可能要注意一些问题。一、判断索引是否重复a、Series索引重复判断 s = Series([1,2,3,4,5],index=["a","a","b","b","c"]) print(s.index.is_unique) #FalseSeries.index.is_unique为False表示索引重

2018-01-07 15:38:04 19814 1

原创 pandas的排序和排名

有的时候我们可以要根据索引的大小或者值的大小对Series和DataFrame进行排名和排序。一、排序pandas提供了sort_index方法可以根据行或列的索引按照字典的顺序进行排序a、Series排序1、按索引进行排序 #定义一个Series s = Series([1,2,3],index=["a","c","b"]) #对Series的索引进行排

2018-01-07 13:17:46 56515 2

原创 pandas的函数应用和映射

我们可以定义函数,来应用到DataFrame指定的行或者列上。一、通过apply使用自定义函数 #使用python的lambda定义函数 f = lambda x : x.max() - x.min() a = np.arange(9).reshape(3,3) data = DataFrame(a,index=["a","b","c"],columns=["

2018-01-06 21:45:37 3946

原创 pandas的算术运算和数据对齐

pandas可以对不同索引的对象进行算术运算,如果存在不同的索引对,结果的索引就是该索引对的并集。一、算术运算a、series的加法运算 s1 = Series([1,2,3],index=["a","b","c"]) s2 = Series([4,5,6],index=["a","c","e"]) print(s1+s2) ''' a

2018-01-06 19:34:55 5728

原创 pandas的基本操作

1、reindex重新索引pandas提供了一个reindex方法来创建一个适应新索引的新对象,Serires通过调用reindex方法会根据新索引的顺序重新排序,如果新的索引中存在原索引中不存在的索引,将会使用NaN值进行填充。 obj = Series([1,2,3],index=["c","b","a"]) obj1 = obj.reindex(["a","b","c"

2018-01-03 22:44:35 1183

原创 pandas的索引对象

pandas两个最重要的数据结构Series和DataFrame都具备索引,pandas的索引对象负责管理轴标签和其他元数据(如轴名称等)。在创建Series或DataFrame的时候,用到的数组或其他序列的标签都会被装换成一个Index对象。1、获取index对象 obj = Series([1,2,3],index=["a","b","c"]) #获取index对象

2018-01-03 21:34:04 2399

原创 pandas的数据结构之DataFrame

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同数据类型的数据。DataFrame既有行索引也有列索引,可以将它看作为一个由Series组成的字典(共用同一个索引)。DataFrame中的数据是以一个或多个二维块存储的,而不是列表、字典或别的一维数据结构。1、创建DataFramea、通过字典创建,字典的值对应的列表或者numpy数组必须要是等长的。

2018-01-02 21:42:13 3718

原创 pandas的数据结构之Series

pandas有两个最主要的数据结构Series和DataFrame,要想熟练的运用pandas进行数据分析,离不开Series和DataFrame的运用。Series是一种类似于一维数组的对象,它是由一组数据和一组标签组成,标签与数据之间存在联系。1、创建一个默认标签的SeriesSeries字符串的组成形式类似于python中的字典,左边是索引,右边是值。Series默认的索引是从0开始

2018-01-02 20:11:12 2269 2

原创 彻底搞懂逻辑斯蒂回归

在线性感知器算法中,我们使用了一个f(x)=x函数,作为激励函数,而在逻辑斯蒂回归中,我们将会采用sigmoid函数作为激励函数,所以它被称为sigmoid回归也叫对数几率回归(logistic regression),需要注意的是,虽然它的名字中带有回归,但事实上它并不是一种回归算法,而是一种分类算法。它的优点是,它是直接对分类的可能性进行建模的,无需事先假设数据分布,这样就避免了假设分布不准确

2018-01-01 11:29:15 42081 14

opencv二维码 识别

opencv微信二维码识别

2021-04-13

OpenCC windows版

OpenCC windows版,用来在中文简体、繁体之间相互转换。

2018-07-30

机器学习常用数据集(iris、wine、abalone)

包括了常用的机器学习数据集,都是csv格式的。有iris.csv、wine.csv、abalone.csv、glass.csv一共由11个数据。

2018-06-06

zxing源码,包含编译好的lib

包含zxing源码和已经编译好的lib,包含zxing源码和已经编译好的lib。

2018-05-28

葡萄酒数据集(wine.csv)

UCI网站上的机器学习样本数据集,包含了13个不同的特征,对178个葡萄酒数据样本的化学特征做出了描述,包含了列表,是一个csv表格。

2018-03-07

opencv2.4.11配置文件

vs的opencv2.4.11配置文件,包含了项目的opencv配置环境

2018-02-27

chromedriver

chromedriver2.32版本,selenium的chrome驱动,selenium是一款模拟浏览器行为的工具,可以支持多款浏览器chrome。

2017-09-04

朴素贝叶斯文本分类

基于朴素贝叶斯的文本分类,结合了TF-IDF算法和textrank算法

2017-08-29

opencv_python-3.3.0-cp35-cp35m-win_amd64.whl

python3.5安装opencv的whl文件

2017-08-26

TextRank算法的实现原理

该PDF是英文版的,主要介绍了TextRank算法的实现

2017-08-08

gensim2.3.0.tar.gz

gensim2.3.0安装包,具体安装步骤请参照我的博客

2017-08-05

k近邻算法的实现

使用python实现k近邻算法,以及测试用例如何识别手写数字,该算法的实现是基于python3,python2的代码可能部分有所不同

2017-07-30

htmlunit爬取网页并保存成Excel

htmlunit爬取网站的数据并保存成Excel表格

2017-07-08

imaging.jar

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/imaging/Imaging

2017-04-02

itext5.5.11 dll

itext5.5.11 dll

2017-04-02

itext5.5.11

itext5.5.11解析PDF

2017-04-02

PDF reference 1.6中文版

PDF reference 1.6中文版+PDF reference 1.7英文版+PDF 分析工具

2017-03-31

itext7-7.0.2(java的pdf jar)

这个我是从git上下载的,上传的目的,只是在git上下载东西真的很慢,受不了。

2017-03-23

zxing lib的使用

zxing c++ lib的使用

2017-03-05

zxing cpp lib

visual studio2013环境下编译生成的lib,从网上下载的,但是我已经更正好了所有的错误,而且还在zxing的基础上,封装了解析二维码的方法,封装是基于opencv的基础,可以去我的博客中看如何使用。这个lib生成的时候是使用,MTD,所以在使用的时候需要注意一下,也要选择MTD,具体操作详见我的博客。

2017-03-05

zxing cpp解析二维码

zxing c++解析二维码,这个是在visual studio2013的测试通过的,基于opencv所以,在使用的时候需要opencv的环境

2017-03-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除