2018年01月_修炼之路

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Ubuntu报unable to mount root fs on unknown-block(2,0)

现象：今天早上，Ubuntu关机重启之后，开机左上角一个光标一直闪，无法进入系统。回顾原因：在几天之前，当时安装Ubuntu的时候，给/home分区的内存太小了，后面一直再报内存不足的问题，为了解决这个问题。因为当时用的是500G的固态硬盘，剩下的300多G被挂载到了其他的节点。所以，我就通过gpart分区软件，将300G的挂载点，合并到/home下面。先将300G的挂载点格式化，然后

2018-01-30 21:40:24 22395 1

原创支持向量机之使用核SVM解决非线性分类问题

支持向量机算法除了能对线性问题进行分类之外，还可以对非线性可分的问题进行分类，我们可以很容易的使用“核技巧”来解决非线性可分问题。一、非线性问题在非线性的问题中，最经典的非线性问题，莫过于对于异或问题的分类了。下面，我们通过python来生成一个异或的数据集，代码如下if __name__ == "__main__": #随机生成200个点

2018-01-29 22:39:11 13479 4

原创支持向量机之SMO算法

一、SMO算法序列最小化优化算法（Sequential minimal optimization,SMO）是一种用于解决支持向量机训练过程中所产生优化问题的算法。SMO由微软研究院的约翰·普莱特在1998发明，用于训练SVM。在SMO之前，SVM的训练必须使用复杂的方法，并需要昂贵的第三方二次规划工具。SMO算法将大优化问题分解为了多个小优化问题来求解的，这些小优化问题通常比较容易求解，并且对

2018-01-28 22:12:02 3656 5

原创机器学习实战源码和数据集下载

官网下载地址：下载地址，找到source code下载即可。点击之后也许无法访问。git下载地址：https://github.com/pbharrin/machinelearninginaction可能在使用GitHub下载的时候会有点慢，最后我再附上百度云下载地址。百度云盘下载地址：链接：https://pan.baidu.com/s/1qZ31gwW 密码：q4fo如

2018-01-21 21:49:09 43286 63

原创支持向量机之拉格朗日乘子法

在上一篇文章中，我们介绍过了支持向量机算法的核心思想，在这篇文章中，将介绍使用拉格朗日乘子法来最大化支持向量与超平面之间的距离，下面可能涉及到的数学计算比较多，我会尽可能的细化求解过程。一、找目标函数先看一张图我们将三角形的图标分为1类，将正方形图标分为-1类，通过红色直线（超平面）将1类和-1类分割开来，而其中1类的点和-1类的点距离超平面最近的点被称为支持向量，也就图中用红

2018-01-20 17:52:53 2403

原创初识支持向量机(support vector machine)

在学习机器学习的时候，当学到支持向量机的时候可能会有一点懵了，这篇文章主要是像大家介绍一下支持向量机的思想，不会有过多的数学。在介绍之前，先看一个非常有意思的故事，故事来源于知乎，原文链接，故事是这样的：在很久以前的情人节，大侠要去救他的爱人，但魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球，说：“你用一根棍分开它们？要求：尽量在放更多球之后，仍然适用。”于是

2018-01-16 22:47:30 2916

原创 pandas保存文件

1、使用DataFrame的to_csv函数保存文件在使用DataFrame的to_csv保存文件的时候，会默认使用逗号作为分隔符，如果没有设置行列索引，也没有禁用行列索引保存的话，保存文件的时候，会默认加上由0开始的行列索引。 data = pd.DataFrame(np.arange(9).reshape(3, 3)) data.to_csv("data.csv")dat

2018-01-14 21:30:46 82231

原创 pandas逐块读取文件

使用pandas来处理文件的时候，经常会遇到大文件，而有时候我们只想要读取其中的一部分数据或对文件进行逐块处理。data.csv1、读取文件中前部分通过nrows参数，来设置读取文件的前多少行，nrows是一个大于等于0的整数。 data = pd.read_csv("data.csv",nrows=5) print(data) '''

2018-01-14 21:24:54 7958

原创使用pandas读取文件

pandas可以将读取到的表格型数据（文件不一定要是表格）转成DataFrame类型的数据结构，然后我们可以通过操作DataFrame进行数据分析，数据预处理以及行和列的操作等。下面介绍一些常用读取文件的方法1、read_csv函数功能：从文件、URL、文件新对象中加载带有分隔符的数据，默认分隔符是逗号。data.txta,b,c,d,name1,2,3,4,python5,6

2018-01-14 16:19:44 86574 6

原创 pandas的整数索引

在使用pandas的过程也许你遇到过一个比较头疼的问题，为什么有的时候能用整数索引有的时候又不能用，下面我们就一起来看一下为什么。一、Series的整数索引 s = pd.Series(np.arange(3),index=["a","b","c"]) print(s[-1]) #2 s1 = pd.Series(np.arange(3)) print

2018-01-11 22:01:28 4476

原创 pandas将DataFrame的列变成行索引

pandas提供了set_index方法可以将DataFrame的列（多列）变成行索引，通过reset_index方法可以将层次化索引的级别会被转移到列里面。1、DataFrame的set_index方法 data = pd.DataFrame(np.arange(1,10).reshape(3,3),index=["a","b","c"],columns=["A","B","C"]

2018-01-11 21:50:26 38916 1

原创 pandas的层次化索引

一、层次化索引层次化索引(hierarchical indexing)是pandas的一个重要的功能，它可以在一个轴上有多个（两个以上）的索引，这就表示着，它能够以低维度形式来表示高维度的数据。二、Series的层次化索引 # Series的层次化索引，索引是一个二维数组，相当于两个索引决定一个值 # 有点类似于DataFrame的行索引和列索引 s = Seri

2018-01-10 21:49:43 13857

原创 pandas处理缺失值

在实际应用中对于数据进行分析的时候，经常能看见缺失值，下面来介绍一下如何利用pandas来处理缺失值。常见的缺失值处理方式有，过滤、填充。一、缺失值的判断pandas使用浮点值NaN(Not a Number)表示浮点数和非浮点数组中的缺失值，同时python内置None值也会被当作是缺失值。a、Series的缺失值判断 s = Series(["a","b",np.na

2018-01-09 20:59:20 32919 2

原创 pandas的唯一值、值计数以及成员资格

1、Series唯一值判断 s = Series([3,3,1,2,4,3,4,6,5,6]) #判断Series中的值是否重复,False表示重复 print(s.is_unique) #False #输出Series中不重复的值,返回值没有排序，返回值的类型为数组 print(s.unique()) #[3 1 2 4 6 5]

2018-01-08 21:55:32 14706

原创 pandas的相关系数与协方差

1、输出百分比变化以及前后指定的行数 a = np.arange(1,13).reshape(6,2) data = DataFrame(a) #计算列的百分比变化，如果想计算行设置axis=1 print(data.pct_change()) ''' 0 1 0 NaN NaN

2018-01-08 21:36:48 16668

原创 pandas的汇总和计算描述统计

pandas提供了很多常用的数学和统计方法，其中大部分都属于约简和汇总统计，用于从Series中提取单个值（如sum或mean）或从DataFrame的行或列中提取一个Series。一、DataFrame的sum和mean方法 a = [[1,np.nan,9],[2,8,3],[3,5,np.nan]] data = DataFrame(a,index=["a","b","

2018-01-07 21:37:58 17560

原创 pandas带有重复索引操作

有的时候，可能会遇到表格中出现重复的索引，在操作重复索引的时候可能要注意一些问题。一、判断索引是否重复a、Series索引重复判断 s = Series([1,2,3,4,5],index=["a","a","b","b","c"]) print(s.index.is_unique) #FalseSeries.index.is_unique为False表示索引重

2018-01-07 15:38:04 19814 1

原创 pandas的排序和排名

有的时候我们可以要根据索引的大小或者值的大小对Series和DataFrame进行排名和排序。一、排序pandas提供了sort_index方法可以根据行或列的索引按照字典的顺序进行排序a、Series排序1、按索引进行排序 #定义一个Series s = Series([1,2,3],index=["a","c","b"]) #对Series的索引进行排

2018-01-07 13:17:46 56516 2

原创 pandas的函数应用和映射

我们可以定义函数，来应用到DataFrame指定的行或者列上。一、通过apply使用自定义函数 #使用python的lambda定义函数 f = lambda x : x.max() - x.min() a = np.arange(9).reshape(3,3) data = DataFrame(a,index=["a","b","c"],columns=["

2018-01-06 21:45:37 3946

原创 pandas的算术运算和数据对齐

pandas可以对不同索引的对象进行算术运算，如果存在不同的索引对，结果的索引就是该索引对的并集。一、算术运算a、series的加法运算 s1 = Series([1,2,3],index=["a","b","c"]) s2 = Series([4,5,6],index=["a","c","e"]) print(s1+s2) ''' a

2018-01-06 19:34:55 5731

原创 pandas的基本操作

1、reindex重新索引pandas提供了一个reindex方法来创建一个适应新索引的新对象，Serires通过调用reindex方法会根据新索引的顺序重新排序，如果新的索引中存在原索引中不存在的索引，将会使用NaN值进行填充。 obj = Series([1,2,3],index=["c","b","a"]) obj1 = obj.reindex(["a","b","c"

2018-01-03 22:44:35 1183

原创 pandas的索引对象

pandas两个最重要的数据结构Series和DataFrame都具备索引，pandas的索引对象负责管理轴标签和其他元数据（如轴名称等）。在创建Series或DataFrame的时候，用到的数组或其他序列的标签都会被装换成一个Index对象。1、获取index对象 obj = Series([1,2,3],index=["a","b","c"]) #获取index对象

2018-01-03 21:34:04 2399

原创 pandas的数据结构之DataFrame

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同数据类型的数据。DataFrame既有行索引也有列索引，可以将它看作为一个由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存储的，而不是列表、字典或别的一维数据结构。1、创建DataFramea、通过字典创建，字典的值对应的列表或者numpy数组必须要是等长的。

2018-01-02 21:42:13 3718

原创 pandas的数据结构之Series

pandas有两个最主要的数据结构Series和DataFrame，要想熟练的运用pandas进行数据分析，离不开Series和DataFrame的运用。Series是一种类似于一维数组的对象，它是由一组数据和一组标签组成，标签与数据之间存在联系。1、创建一个默认标签的SeriesSeries字符串的组成形式类似于python中的字典，左边是索引，右边是值。Series默认的索引是从0开始

2018-01-02 20:11:12 2269 2

在线性感知器算法中，我们使用了一个f(x)=x函数，作为激励函数，而在逻辑斯蒂回归中，我们将会采用sigmoid函数作为激励函数，所以它被称为sigmoid回归也叫对数几率回归（logistic regression），需要注意的是，虽然它的名字中带有回归，但事实上它并不是一种回归算法，而是一种分类算法。它的优点是，它是直接对分类的可能性进行建模的，无需事先假设数据分布，这样就避免了假设分布不准确

2018-01-01 11:29:15 42083 14

opencv二维码识别

opencv微信二维码识别

2021-04-13

OpenCC windows版

OpenCC windows版，用来在中文简体、繁体之间相互转换。

2018-07-30

机器学习常用数据集(iris、wine、abalone)

包括了常用的机器学习数据集，都是csv格式的。有iris.csv、wine.csv、abalone.csv、glass.csv一共由11个数据。

2018-06-06

zxing源码，包含编译好的lib

包含zxing源码和已经编译好的lib，包含zxing源码和已经编译好的lib。

2018-05-28

葡萄酒数据集(wine.csv)

UCI网站上的机器学习样本数据集，包含了13个不同的特征，对178个葡萄酒数据样本的化学特征做出了描述，包含了列表，是一个csv表格。

2018-03-07

opencv2.4.11配置文件

vs的opencv2.4.11配置文件，包含了项目的opencv配置环境

2018-02-27

chromedriver

chromedriver2.32版本，selenium的chrome驱动，selenium是一款模拟浏览器行为的工具，可以支持多款浏览器chrome。

2017-09-04

朴素贝叶斯文本分类

基于朴素贝叶斯的文本分类，结合了TF-IDF算法和textrank算法

2017-08-29

opencv_python-3.3.0-cp35-cp35m-win_amd64.whl

python3.5安装opencv的whl文件

2017-08-26

TextRank算法的实现原理

该PDF是英文版的，主要介绍了TextRank算法的实现

2017-08-08

gensim2.3.0.tar.gz

gensim2.3.0安装包，具体安装步骤请参照我的博客

2017-08-05

k近邻算法的实现

使用python实现k近邻算法，以及测试用例如何识别手写数字，该算法的实现是基于python3，python2的代码可能部分有所不同

2017-07-30

htmlunit爬取网页并保存成Excel

htmlunit爬取网站的数据并保存成Excel表格

2017-07-08

imaging.jar

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/imaging/Imaging

2017-04-02

itext5.5.11 dll

2017-04-02

itext5.5.11

itext5.5.11解析PDF

2017-04-02

PDF reference 1.6中文版

PDF reference 1.6中文版+PDF reference 1.7英文版+PDF 分析工具

2017-03-31

itext7-7.0.2(java的pdf jar)

这个我是从git上下载的，上传的目的，只是在git上下载东西真的很慢，受不了。

2017-03-23

zxing lib的使用

zxing c++ lib的使用

2017-03-05

zxing cpp lib

visual studio2013环境下编译生成的lib,从网上下载的，但是我已经更正好了所有的错误，而且还在zxing的基础上，封装了解析二维码的方法，封装是基于opencv的基础,可以去我的博客中看如何使用。这个lib生成的时候是使用，MTD,所以在使用的时候需要注意一下，也要选择MTD，具体操作详见我的博客。

2017-03-05

zxing cpp解析二维码

zxing c++解析二维码，这个是在visual studio2013的测试通过的，基于opencv所以，在使用的时候需要opencv的环境

2017-03-05

ListView中因layout_height是wrap_content而引发的问题

2018-06-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

opencv二维码 识别

OpenCC windows版

机器学习常用数据集(iris、wine、abalone)

zxing源码，包含编译好的lib

葡萄酒数据集(wine.csv)

opencv2.4.11配置文件

chromedriver

朴素贝叶斯文本分类

opencv_python-3.3.0-cp35-cp35m-win_amd64.whl

TextRank算法的实现原理

gensim2.3.0.tar.gz

k近邻算法的实现

htmlunit爬取网页并保存成Excel

imaging.jar

itext5.5.11 dll

itext5.5.11

PDF reference 1.6中文版

itext7-7.0.2(java的pdf jar)

zxing lib的使用

zxing cpp lib

zxing cpp解析二维码

ListView中因layout_height是wrap_content而引发的问题

opencv二维码识别