yyy32-CSDN博客

原创 sklearn 中 fit fit_transform

fit(y) Fit label encoder fit_transform(y) Fit label encoder and return encoded labels fit 返回一个实例 fit_transform 返回和y一样的形状from sklearn import preprocessingle = preprocessing.LabelEncoder()city

2017-04-07 16:48:14 9376

原创数学之美（1 马尔科夫

马尔科夫2元模型后一个词概率只与前一个词有关简化了词条件概率隐马尔科夫模型（hmm）为解决该问题马尔科夫链 P（st+1=m3|st =m2)=0.6 P(st+1=m4|st=m2)=0.4 按任意给定规则运行一段时间T 会生成序列 s1，s2，s3，···sT隐马尔科夫链看不出s1，s2··· 就每次输出 O1，O2··· 把独立输出假设带入那么计算由s1，s2

2017-04-06 18:54:34 448

原创机器学习基本算法（5 （adaboost、 Gradient boost

adaboostboosting：增强的 adaboost 适应的增强适应的增强就是给你好多个弱的方案，让你经过不断地适应增强得到一个新的好方案。就是让孩童来讨论一个问题，比如什么是太阳一人只能说一条那就有很多说法太阳是圆的，发光的等等但每个人说法都是片面的弱的 adaboost的所求目标这里我们要得个每个弱方案的权重和弱方案对第一个方案，给每一个

2017-04-01 17:12:20 556

原创机器学习基本算法（4（K-means(较短

k-means一种解决聚类问题的非监督式学习算法就是k-均值，对全部的n个点用求平均值的方法找到k个聚类点转化成最优化问题就是 M个聚类点每个x都属于这M个其中的一个点中，求这所以点加起来的总平方距离最短对方程求导看出来了点的位置就是属于该点的 x的平均（这就是 k-均值中均值的来源）这个算法很容易理解 1、随机找到 K个聚点 2、把所有

2017-03-31 20:32:04 289

原创机器学习基本算法（3（深入浅出SVM

Hard-Margin SVMLinear SVM如果说在平面上 0的点和 1的点是可分的那就能找出无数条线来划分这个面那怎么找到最好的线这就是svm做的事就是找到最不容易发生意外的线就像这3条线第1条就很容易发生意外就是说在左边的 x 这个地方对分类要求的精度很高可能一不小心就分错了 x o 而 svm 就是要找到第3条线这样的线在svm中越不容易出

2017-03-30 17:40:37 295

原创机器学习基本算法（2（Linear Regression ，Logistic Regression

名字都是回归但逻辑回归不是回归是分类Linear Regression(线性回归）就是用简单的线性方程来拟合数据集y=∑ni=0wixi+b y =\sum_{i=0}^n w_ix_i+b 其中的 w 就是各个回归系数 w 可用平方误差来求得 ∑ni=0(yi−wixi)2=∑ni=0(yi−xTiw)2 \sum_{i=0}^n (y_i-w_ix_i)^2 = \sum_{i=0}^

2017-03-30 16:02:35 428

原创机器学习基本算法（1（knn ,Decision Tree，random forest

把knn放进来是 knn太短了直接加上就行了数和森林可以参考这个 https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/knn好邻居法用最近的k的邻居来表示它的特征一般用于分类用一个距离函数找出已知数据中距离未知事件最近的k个数据，最

2017-03-29 20:06:49 1553

原创扩大CentOS的硬盘空间

安装gcc 磁盘内存不够了 [root@localhost yyy]# df -h Filesystem Size Used Avail Use% Mounted on /dev/sda2 14G 12G 1.7G 88% / tmpfs 940M 228K 939M 1% /dev/shm

2017-03-29 19:35:41 488

原创初识nlp （5（朴素贝叶斯

2017-03-29 17:24:24 412

原创 linux出现an error occurred during the file system check

命令行里把/etc/fstab里后添加的挂载信息给删除但文件只读可以 mount -n -o remount,rw在 vi /etc/fstab这时就可以删除了

2017-03-29 15:07:07 637

原创 nlp初识（4（cnn cnn作用text 文本分类

卷积： y = f x g 用另一个矩阵来对该矩阵做运算得到新的结果 cnn 对图片用不同滤镜得到不同的新矩阵在对每个新矩阵 pooling 相当于降维比如 8 x8 矩阵对每个 2 x 2 取max 把8 x 8 转成 4 x4把句子当做一副画让cnn来学或者 cnn 比rnn合适在分类上因为对小语病可以忍受做了pooling关于卷积的一个血腥的讲解比如

2017-03-28 22:20:55 801 1

原创初识nlp （ 3 （ rnn rnn应用1 自动写作

普通神经网络 h1 = f（w1x1+w2x2+w3x3) o1 = f(w’1h1+w’2h2+w’3h3) o1<-> y1 loss’= ∆带记忆神经网络rnn带sequential的网络 sequential：有时序的前一个的输出在后一个的输入中考虑 lstm (long short-term memory)rnn 加强版用xor and 来计算将上次输出这次输入

2017-03-28 20:40:14 1931

原创初识nlp （2 （word2vec基础

nlp处理方法人工创造dict 基于统计 hmm，crf，svmbag of wordsone-hot 1xn矩阵只有一个元素是1，其他是0 john likes to watch movies Mary likes too -> [1,2,1,1,1,0,0,0,1,1]或[1,1,1,1,1,0,0,0,1,1] john also likes watchfootball g

2017-03-27 17:40:33 521

原创初识nlp word2vec实战1 英语文本分析

Bag of Words Meets Bags of Popcorn https://www.kaggle.com/c/word2vec-nlp-tutorial/data版本 1 未用word2vec4个文件： labelTrainData testData unlabeledTrainData sampleSubmissionimport 所需库import osimport re

2017-03-25 15:57:05 1579

转载初识nlp （1 （分词

1 nltk知识 Python上著名的自然语处理库。带语料库，词性分类库。带分类，分词，等等功能 pip install -U nltk 安装语料库import nltk nltk.download() 简易处理流程图 2 tokenize分词>>> import nltk >>> tokens = nltk.word_tokenize(“hello, world" ) >>>

2017-03-24 20:10:39 493

转载安装matplotlib 后 show（）不显示图片

#备忘查看后端后发现是aggimport tkinter 发现不行find /usr -name *tkinter.so 发现有tkinter 原来是python2.6和python2.7起冲突了[root@li250-193 Python-2.7.4]# vim Modules/Setup.dist

2017-03-22 19:29:32 547

qq_29031319的博客