nnnancyyy-CSDN博客

原创 XGBoost调参步骤及常见问题

XGBoost参数设置通用参数这些参数用来控制XGBoost的宏观功能。booster[默认gbtree]选择每次迭代的模型，有两种选择：gbtree：基于树的模型gbliner：线性模型silent[默认0]当这个参数值为1时，静默模式开启，不会输出任何信息。一般这个参数就保持默认的0，因为这样能帮我们更好地理解模型。nthread[默认值为最大可能的线程数]这个参数用来进行多线程控制，应当输入系统的核数。如果你希望使用CPU全部的核，那就不要输入这个参数，算法会自动检

2021-11-30 11:10:02 3752

原创 pd.DataFrame增删改查

pd.Dataframe常用函数，增删改查，排序sort_values

2021-09-28 17:38:25 781

原创递归神经网络LSTM详解：为什么用sigmoid，tanh不用relu？

1. 递归神经网络递归神经网络的结果与传统神经网络有一些不同，它带有一个指向自身的环，用来表示它可以传递当前时刻处理的信息给下一时刻使用。可以认为它是对相同神经网络的多重复制，每一时刻的神经网络会传递信息给下一时刻。递归神经网络因为具有一定的记忆功能，可以被用来解决很多问题，例如：语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。2.LSTM长时依赖是这样的一个问题，当预测点与依赖的相关信息距离比较远的时候，就难以学到该相关信息。Long Short Term Mermory

2021-08-25 18:33:44 5320

原创 NLP预训练方法：从BERT到ALBERT详解

BERT基于所有层中的左、右语境进行联合调整，来预训练深层双向表征。只需要增加一个输出层，就可以对预训练的BERT表征进行微调，就能够为更多的任务创建当前的最优模型。1. 预训练优点假设已有A训练集，先用A对网络进行预训练，在A任务上学会网络参数，然后保存以备后用，当来一个新的任务B，采取相同的网络结构，网络参数初始化的时候可以加载A学习好的参数，其他的高层参数随机初始化，之后用B任务的训练数据来训练网络，当加载的参数保持不变时，称为"frozen"，当加载的参数随着B任务的训练进行不断的改变，称为“f

2021-08-25 17:34:36 1200

原创神经网络防止过拟合：Droupout工作原理及SpatialDropout1D

工作流程输入是x输出是y，正常的流程是：我们首先把x通过网络前向传播，然后把误差反向传播以决定如何更新参数让网络进行学习。使用Dropout之后，过程变成如下：（1）首先随机（临时）删掉网络中一半的隐藏神经元，输入输出神经元保持不变（2）然后把输入x通过修改后的网络前向传播，然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后，在没有被删除的神经元上按照随机梯度下降法更新对应的参数（w，b）。（3）然后继续重复这一过程：. 恢复被删掉的神经元（此时被删除的神经元保持原样

2021-08-25 16:23:51 1897

原创一文读懂w2vec附基于 Gensim 的 Word2Vec增量代码

简单来讲word2vecor包含输入层、隐层、输出层三层。训练模式CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model)，是word2vec的两种训练模式。CBOW的意思就是用上下文来预测当前词。CBOW输入层处理方式和NNLM里是一样的，也是乘一个投影矩阵。如果我们设定的矩阵维度D（超参数），那个这个投影矩阵的维度就是 D * V， C * 词向量（one-hot表示既在投影矩阵中取第n列来表示对应的词）

2021-08-24 11:48:36 389

原创 python高并发异步 asyncio及垃圾回收机制

asynciopython由于GIL（全局锁）的存在，不能发挥多核的优势，其性能一直饱受诟病。然而在IO密集型的网络编程里，异步处理比同步处理能提升成百上千倍的效率。asyncio是Python 3.4版本引入的标准库，直接内置了对异步IO的支持。async def 用来定义异步函数，其内部有异步操作。每个线程有一个事件循环，主线程调用asyncio.get_event_loop()时会创建事件循环，你需要把异步的任务丢给这个循环的run_until_complete()方法，事件循环会安排协同程序的

2021-08-23 17:39:30 670

原创 Spark 归一化方法总结Normalizer、StandardScaler、MinMaxScaler

org.apache.spark.ml.feature包中包含了4种不同的归一化方法：NormalizerStandardScalerMinMaxScalerMaxAbsScaler数据准备注意函数对于要处理的数据格式要求是val dataFrame = data.na.fill(0).rdd.map(a=>(a.getString(0),Vectors.dense(a.getLong(1),a.getLong(2),a.getLong(3),a.getLong(4)))).toDF("

2021-08-19 10:49:03 2724

原创近邻算法比较：hnsw、KDTree、Annoy

基于树结构的近邻算法KDTreekd树是二叉树，核心思想是对 k 维特征空间不断切分从根结点出发，递归地向下访问kd树递归地向上回退，查找该结点的兄弟结点中是否存在更近的点回退到根结点时，搜索结束类似的有Balltree(在嵌套的超球面上分割数据，而不是超矩形划分区域)Annoyannoy的每一次空间划分，可以看作聚类数为2的KMeans过程在划分的子空间内不停的递归迭代继续划分直到每个子空间最多只剩下K个数据节点，划分结束基于图存储结构的近邻算法图查找的朴素思想：从任

2021-08-04 17:41:46 972

原创从yarn队列当中获取特定任务id

从yarn队列当中获取特定任务idJOBNAME=jobNameRESULT=yarn application -list |grep "$JOBNAME" |cut -f1if [[ "$RESULT" != "" ]]then yarn application -kill $RESULTelse echo "不包含"fi

2021-08-02 18:36:41 1117

原创 shell 超时自动终止TimeOut

shell 命令执行超时自动终止持续执行的任务 & { sleep 超时时间 ; kill $! & }例如：ping 命令执行10秒后终止ping 192.168.1.1 & { sleep 60; kill $! & }

2021-08-02 18:31:57 2619

原创 Hadoop基础知识整理

Hadoop三大组件：分布式文件系统：HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架：MapReduce——实现多台机器的分布式并行运算。分布式资源调度平台：YARN —— 帮用户调度大量的mapreduce程序，并合理分配运算资源...

2021-07-28 11:10:38 97

原创 Spark 广播变量：SparkContext.broadcast定义及使用注意事项

今天来讨论一下spark里面的闭包问题，当用户提交了一个用scala语言写的Spark程序，首先这个Spark程序就是一个“Application”，程序里面的mian函数就是“Driver Program”，dirver程序的可能运行在客户端，也有可有可能运行在spark集群中，这取决于spark作业提交时参数的选定，比如，yarn-client和yarn-cluster就是分别运行在客户端和spark集群中。在driver程序中会有RDD对象的相关代码操作，它们是在Worker节点上面运行的，所以spa

2021-07-06 16:30:56 4206 2

原创自然语言处理大数据：spark ML Word2Vec详解

简介Word2Vec 是一种著名的词嵌入（Word Embedding）方法，它可以计算每个单词在其给定语料库环境下的分布式词向量（Distributed Representation，亦直接被称为词向量）。词向量表示可以在一定程度上刻画每个单词的语义。如果词的语义相近，它们的词向量在向量空间中也相互接近，这使得词语的向量化建模更加精确，可以改善现有方法并提高鲁棒性。词向量已被证明在许多自然语言处理问题，如：机器翻译，标注问题，实体识别等问题中具有非常重要的作用。 Word2vec是一个Est

2021-06-11 17:54:50 885 1

原创 Python之Numpy数组常用操作 stack拼接 split分割

展平数组b.ravel()flatten()函数也可以实现同样的功能区别：ravel只提供视图view，而flatten分配内存存储重塑用元祖设置维度>>> b.shape=(4,2,3)>>> barray(［[ 0, 1, 2], [ 3, 4, 5］, ［ 6, 7, 8], [ 9, 10, 11］, ［12, 13, 14], [15, 16, 17］,

2021-06-01 10:35:52 654

原创 Spark性能调优： num-executors, execuor-cores, executor-memory 配置建议

spark.hadoopRDD.ignoreEmptySplits默认是false，如果是true，则会忽略那些空的splits，减小task的数量。spark.hadoop.mapreduce.input.fileinputformat.split.minsize是用于聚合input的小文件，用于控制每个mapTask的输入文件，防止小文件过多时候，产生太多的task。spark.sql.autoBroadcastJoinThreshold 和spark.sql.broadcastTimeout.

2021-05-21 13:53:04 1666

原创 python常用命令行：版本号、安装、查询

1. 版本号查询python -V 或 python --version2. python包查询pip list 如果有anaconda环境还可以 conda list3. 安装python包pip install 或者 conda install

2021-05-18 11:14:34 206

转载推荐系统之协同过滤

关于推荐系统的协同过滤读了一篇讲的特别好的笔记，怕之后会丢就搬运过来，文章引自：https://www.pianshen.com/article/27762043485/相似度的度量方法1.1.杰卡德(Jaccard)相似系数这个是衡量两个集合的相似度一种指标。两个用户 u u u和 v v v交互商品交集的数量占这两个用户交互商品并集的数量的比例，称为两个集合的杰卡德相似系数，用符号 s i m u v sim_{uv} simuv表示，其中 N ( u ) , N ( v ) N(u),N(v)

2021-05-14 17:00:21 545

原创分类回归KNN算法整理

K近邻算法（KNN）是一种常用的分类和回归方法，它的基本思想是从训练集中寻找和输入样本最相似的k个样本，如果这k个样本中的大多数属于某一个类别，则输入的样本也属于这个类别。关于KNN算法，一个核心问题是：如何快速从数据集中找到和目标样本最接近的K个样本？比如，我在app上阅读了一篇文章，推荐系统就应当为我推送与这篇文章最相近的文章，数据库中所有文章是用向量表示的，所以我们要解决的问题就是“找到与这篇文章的向量最相近的几个向量”，然后把这些向量对应的文章推送出去。KNN算法的三要素：距离度量、k值的选择

2021-04-08 10:17:22 556

weixin_42155006的博客