勤奋的郑先生-CSDN博客

原创逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分效果观察

https://blog.csdn.net/weixin_41710583/article/details/85016622

2020-06-13 15:05:58 1729

原创 sklearn MLPclassifier 参数解析

https://blog.csdn.net/weixin_38278334/article/details/83023958其中：hidden_layer_sizes :例如hidden_layer_sizes=(50, 50)，表示有两层隐藏层，第一层隐藏层有50个神经元，第二层也有50个神经元。

2020-06-13 14:56:44 1459

原创 sklearn_randomforest_随机森林参数调参

https://blog.csdn.net/w952470866/article/details/78987265/

2020-06-10 19:02:43 589 1

目录 SVM相关知识点回顾 1.1. SVM与SVR 1.2. 核函数 sklearn中SVM相关库的简介 2.1. 分类库与回归库 2.2. 高斯核调参 2.2.1. 需要调节的参数 2.2.2. 调参方法：网格搜索编程实现这是《西瓜书带学训练营·实战任务》系列的第三篇笔记1. SVM相关知识点回顾1.1. SVM与SVR SVM分类算法其原始形式是：其中m为样本个数，我们的样本为(x1,y1),(x2,

2020-06-10 14:44:53 8734 2

原创 CNN 吴恩达讲解

https://blog.csdn.net/ice_actor/article/details/78648780

2018-09-30 15:05:38 703

原创 LSTM原理及实现

https://blog.csdn.net/gzj_1101/article/details/79376798

2018-09-27 15:17:02 452

转载 RNN循环神经网络

全连接神经网络和卷积神经网络他们都只能单独的取处理一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。比如，当我们在理解一句话意思时，孤立的理解这句话的每个词是不够的，我们需要处理这些词连接起来的整个序列；当我们处理视频的时候，我们也不能只单独的去分析每一帧，而要分析这些帧连接起来的整个序列。这时，就需要用到深度学习...

2018-09-26 11:16:47 442

原创 LSTM做文本生成（基于word2vec)

数据：使用丘吉尔的人物传记作为我的学习语料框架：Kerasimport osimport numpy as npimport nltkfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import Dropoutfrom keras.layers import ...

2018-09-26 01:15:12 7276 1

原创 LSTM做文本生成(基于bag_of_word)

数据：使用丘吉尔的人物传记作为我的学习语料。框架：kerasimport numpyfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import Droupoutfrom keras.layers import LSTMfrom keras.callbacks ...

2018-09-25 23:56:31 1225 2

原创根据姓名预测性别

算法：朴素贝叶斯import pandas as pdfrom collections import defaultdictimport mathtrain=pd.read_csv("train.txt")test=pd.read_csv("test.txt")submit=pd.read_csv("sample_submit.csv")数据集的样子。train....

2018-09-25 15:05:06 3497 3

原创朴素贝叶斯，拉普拉斯平滑

条件概率与贝叶斯定理朴素贝叶斯拉普拉斯平滑目的:在训练集有限的情况下，给定类别，某一特征值出现的条件概率可能为0，这样在贝叶斯公式中分子和分母都为0，为了避免这种情况，就要用到拉普拉斯平滑。即：在文本分类的问题中，当一个词语没有在训练样本中出现，该词语调概率为0，使用练乘计算文本出现概率时也为0.这是不合理的，不能因为一个事件没有观察到就武断的认为该事件的概率是0....

2018-09-25 11:02:12 3457

原创中文文本情感分析（word2vec)

gensim做word2vec文本处理，sklearn.svm做建模from sklearn.cross_validation import train_test_splitfrom gensim.models.word2vec import Word2Vecimport numpy as npimport pandas as pdimport jiebafrom sklearn....

2018-09-19 16:28:40 9303 8

原创 word2vec 对影评情感进行预测

上篇用了countvectorize进行文本embling,忽视了文本词中上下文的语义。因此这里用到了word2vec。word2vec训练词向量。import osimport reimport numpy as npimport pandas as pdfrom bs4 import BeautifulSoupimport nltk.datafrom gensim.mod...

2018-09-19 00:18:21 2097 1

原创对影评进行情感预测（countvectorizer,randomforeast)

参加了kaggle的竞赛，主题为对影评进行情感预测。以下为我的baseline思路.所用到的包：countvectorize,randomforestclassifier.import#import所需要的库import osimport reimport numpy as npimport pandas as pdfrom bis4 import BeautifulSou...

2018-09-18 23:05:02 1069

原创 word2vec的延伸：DOC2VEC

虽然WORD2VEC表示的词向量不仅考虑了词之间的语义信息，还压缩了维度。但是，有时候当我们需要得到sentence/Document的向量时，虽然可以直接将sentence/Document中所有词的向量取均值作为sentence/Document的向量表示，但是这样会忽略了单词之间的排列顺序对句子或文本信息的影响。基于此，才延伸出在word2vec上的改进doc2vec。 Doc2v...

2018-09-18 17:20:14 448

原创 python 读取Hive数据，和上传数据到hive

使用第三方包pyhive。 from pyhive import hiveimport pandas as pdimport sysreloar(sys)sys.setdefaultencoding('utf8') def LinkHive(sql_select): connection = hive.Connection(host='主机名') cursor...

2018-09-18 09:33:37 10194

原创 word2vec 的CBOW，多层softmax,负采样。

NNLM的原理基于N-1个词来预测第N个词，而CBOW是希望用前后N个词来预测中间词，这是CBOW与NNLM的本质区别。NNLM中存在投影层，将ONE-HOT编码与词库矩阵C进行运算投射，从词库矩阵取出一列。同时对每个词取出的每个列，进行一个concat拼接。而由于当词库非常巨大时，这个计算是非常耗费时间的。因此，就出现了CBOW CBOW CBOW将矩阵C直接舍弃，直接把这样一...

2018-09-16 22:24:06 3750

原创 Neural Network Language Model（NNLM）

Neural Network Language Model（NNLM）神经网络语言模型原理图：运用场景：知道句子的前N-1个词，来预测第N个词。网络的流程：1.词语one-hot编码—————2.projection_layer层————3.hidden_layer层——————4.SoftMax层词语One-hot编码句子：“我爱自然语言处理”词库为：”...

2018-09-13 17:22:32 1834 1

原创 N-gram

N-gram语言模型该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。目的1：用来明确语义比如当“MIKE LOVE YOU " 跟"YOU LOVE MIKE"两句话时用binary weighti...

2018-09-12 14:53:35 345

原创 np.random.uniform

numpy.random.uniform介绍：函数原型： numpy.random.uniform(low,high,size)功能：从一个均匀分布[low,high)中随机采样，注意定义域是左闭右开，即包含low，不包含high.参数介绍: low: 采样下界，float类型，默认值为0； high: 采样上界，float类型，默认值为1； si...

2018-09-11 15:30:30 3884 1

原创 NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式

昨天做NLP词频矩阵处理时候，遇到内存不足的问题，遇到memoryerror的情况。查了不少资料，都让我在大的机器上跑，但是有时候资源有限。由于我的句子中的每个词语都是重要的，所以不设置停用词，也就是countvectoirze才符合我的需求，而并非TFIDFVECTORIZE，TFIDF是为了减小句子中的一些出现频率高但是却没有意义的词的权重。因此我选择了countvectorize。当...

2018-09-06 10:19:11 5455 2

原创 python中merge,concat

经常混淆，MARK一下：pd.concat([up,down],axis=0,ignore_index=True)表示按axis来连接，比如为0时，上下连接，以up的数据columns为主，若down数据不存在相应的columns，则此columns下的down数据为null,ignore_index表示将index重新排序。pd.merge(A,B,on="left",on="id"...

2018-09-04 23:25:34 1550

原创 Dictvectorizer,countvectorizer和tfidfvectorizer文本特征提取区别

Dicvectorizer对使用字典储存的数据进行特征提取与向量化 # 定义一组字典列表，用来表示多个数据样本（每个字典代表一个数据样本）。measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'te...

2018-09-03 14:34:28 1917

原创 PYTHON TENSORFLOW手记

个人记性不好，经常性工作中忘记知识点，现在打算在做项目时候，哪些知识点淡忘了，就在CSDN上MARK一下。mark 一下tensorflow 的流程： tensorflow的基础运算 tensorflow口诀：1.变量（variable) 2.tensor 3.会话 4 图 5.feed(与placeholder一块使用）1.变量(variable)：用来记录一些数据和状...

2018-08-29 10:32:31 213

原创 sklearn.linear_model.LogisticRegression参数

sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’liblinear’, max_iter=100, mu...

2018-08-28 17:40:26 653

原创 L1,L2正则化简单概括

工作需要，时常忘记区别，MARK一下：L1 正则化使不重要的参数的权重为零，从而使得非零的特征的权重显得突出，形成稀疏矩阵，从而起到特征选择的作用，也能起到防止过拟合。L2 正则化，使所有的参数权重都相应的减小，使得因数据集的不同而受到的影响减小，从而起到防止过拟合的作用。...

2018-08-28 17:27:45 121

原创模型评估中测试集的选择方法

前言对训练好的模型进行评估，目的是为了测试我们所训练的模型是否拥有好的泛化能力。为此，需使用一个“测试集”来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似。通常我们假设测试样本也是从样本真实分布中独立同分布采样而得。但需注意的是，测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集中出现，未在训练过程中使用过。因此本文介绍如何从数据集中选择测试集的方法。...

2018-08-15 18:08:06 8380

原创 NFL定理及前提

什么是NFL（No Free Lunch Theorem) 我们在做模型时，都会在算法的选择上花费了大部分时间，会纠结在算法的好坏以及各自的优缺点，最终实现我们的目标函数和现实函数之间的总误差最小。我们也会平时挂在嘴边，哪个算法比哪个好。但是在周志华老师《机器学习》的书中提到一个概念NFL。周志华老师写道：通过公式的推导，我们发现总误差竟然与学习算法无关，对于任意两个学习算法，无...

2018-08-14 15:18:18 6871 4

原创关于Deeplearning中的激活函数梯度消失问题以及如何选择激活函数

什么是激活函数？如上：输入input,经过加权求和，再经过activation函数激活，再输出作为下一层的输入。为什么要用激活函数我们知道，经过加权求和时，输入呈现线性函数关系，此时如果没有激活函数，输出都呈现线性组合，不管神经网络有多少层，结果说到底为线性方程式，无法来映射现实中复杂的因素。之所以运用神经网络，是想让其能像人脑对外界复杂因素进行解析，而这些复杂因素往往...

2018-08-03 11:36:21 1734

原创人脸识别tensorflow_cnn_face_recognize

-------让系统认识我--------------人脸识别系统----------VERSION2：基于tensorflow_cnn来做模型---背景：上一篇我的github:zhenghaozhang（https://github.com/zhenghaozhang123/dlib_face_recognize）讲了利用dlib来进行人脸识别的例子，列举了三个缺点。此处模...

2018-07-31 17:23:44 1244 1

原创人脸识别Dlib_face_recognize

-------让系统认识我--------------人脸识别系统----------VERSION1：基于DLIB实现人脸识别---文章来自我的Github：https://github.com/zhenghaozhang123/dlib_face_recognize---缺点：1.判定是否同一个人的阈值难以确定。adas2.模型适合小型人脸数据库，一旦人脸数据库人数过多...

2018-07-31 14:25:03 3347

原创 python 下实现xgboost 调参演示

基于前阵子京东金融JDD数据探索大赛比赛拿下总决赛季军的经验，发现xgboost真的是一个很好的利器，精确度的提升是很疯狂的，从最远先使用的RF模型到XGBOOST模型，精确度可以说提升了0.3的跨度。相信很多人跟我一样都被xgboost惊艳到，今天就来记录下xgboost的调参演示，刚接触xgboost可以看看。以下实现，我使用sklearn.datasets的make_hastie

2018-02-07 11:23:59 8976 2

weixin_41370083的博客