jiangda_0_0-CSDN博客

原创 macOS trustd进程占用CPU高问题解决办法

1.关机2.按住command+R开机，出现进度条松手3.选择用户，输入密码，进入Recovery模式4.打开终端，输入csrutil disable.5.成功后，重启进入系统。6.打开终端，cd /private/var/protected/trustd/进入路径，用root用户权限删除valid.sqlite3文件。sudo rm -rf valid.* ，输入密码。7.重启系统，此时trustd任务占用cpu资源的问题就会解决。8.重新进入recovery模式，打开终端，输

2022-02-25 19:55:20 4091

原创文本分类的一些建议

文本分类模型常用的文本分类方法有，TF-IDF、Word2Vec、NB、SVM、LR、RNN、CNN等传统的文本分类模型需要大量的特征工程，而基于神经网络的模型，通过向量化词语，可以省去大量的特征工程。往往有比较好的效果使用RNN模型可以捕捉文本的上下文信息，CNN模型的效果受window大小的影响比较大，window的大小定义了模型的“视野”的大小，所以这里我们使用RNN模型，常见的实现有LST...

2018-05-09 20:09:01 1015

原创 Spark XGBoost的一些问题

在使用Spark版本的xgboost的时候会有一些单机版本遇不到的问题，可能对使用的人造成一些困扰，经过两周的踩坑，总结一下，希望有帮助1、输入、预测数据的一致性Spark版本的XGBoost处理的输入可以是RDD或者DataFrame。由于Spark的机制，在没有显式指定的情况下，是不会保存RDD或者DataFrame的内容的。所以预测之后得到结果的RDD和原本输入的RDD不能够保证对应

2017-12-06 11:28:14 4682

原创 Linux找不到jni.h或者找不到jni_md.h原因及解决方案

1. 背景很多朋友在日常工作中会使用到java的jni功能。在Linux环境下当编译c文件时可能会报出找不到jni.h、找不到jni_md.h的错误。2.简介首先，不要怀疑是jdk出现了不完整的问题，这会让你走很多弯路，最后还解决不了问题。以我的jdk1.7.0_75为例，两个头文件的位置分别为：jni.h jdk1.7.0_75/i

2017-07-07 17:42:45 13238 1

翻译地理坐标的六边形编码(PHXIS)

基本概念#1 - 存在物理位置和时间人类的交互基础在于时间和空间的框架。我们发现，我们反应、认知、潜意识/意识的形成是通过大脑中的神经网络系统来完成的，神经系统能够处理外来的信号。数字化的计算机，作为控制理论的一部分，通过不断扩充我们以上的能力，整体的提升了人类的智能水平。关于物理空间时间和空间的模型是形而上的。欧几里得的相关理论定义了一个形而上的连续空间模型，通过分析地理信息和代数，

2017-06-27 14:59:42 3819

原创关于spark Executor OOM的问题引发的联想

最近被问到executor OOM如何处理的问题，一开始想可以调整spark.executor.cores的大小，因为每个executor中多个task是共享同一个heap的大小的，spark中资源的分配是以executor为单位分配的。另外在看join和cogroup的区别的时候，发现join是在cogroup基础上封装的，但是join有可能会有笛卡尔积的情况。具体原因，这里不展开。看源

2017-04-07 23:54:27 1547

转载在机器学习中各分类方法的优缺点

作者：Jason Gu链接：https://www.zhihu.com/question/24169940/answer/26952728来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。尝试将quora上的这个回答翻译了下。第一次翻译，不好之处请见谅。What are the advantages of different classifi

2017-03-13 12:02:08 4440

原创 Graphx社区发现算法学习

现实生活中存在各种各样的网络，诸如人际关系网、交易网、运输网等等。对这些网络进行社区发现具有极大的意义，如在人际关系网中，可以发现出具有不同兴趣、背景的社会团体，方便进行不同的宣传策略；在交易网中，不同的社区代表不同购买力的客户群体，方便运营为他们推荐合适的商品；在资金网络中，社区有可能是潜在的洗钱团伙、刷钻联盟，方便安全部门进行相应处理；在相似店铺网络中，社区发现可以检测出商帮、价格联盟等，对商

2017-03-10 19:17:15 6201

原创 Spark中的mapPartitions

在使用Spark链接到外部服务过程中，比如JDBC等，如果对于RDD中每一条信息建立一个链接，会导致链接数过多，而且在这种情况下，快速且大量的简历链接和释放，会造成比较大的资源浪费。在这种情况下，特别是如果有batch接口的情况下，通过mapPartitions，对一个Partition中的数据来说，只建立一个链接或者通过这一个链接进行batch请求，会在很大程度上的节约现有的资源，提高资源的

2017-03-09 15:50:31 1006

原创关于Graphx中的pregel的API理解

由于在做一些图论相关的工作，平时工作中使用Spark比较多，所以决定学习一下Graphx，对以后挖掘数据会比较有帮助。Graphx的入门之SSSP（单源点最短路径） val inintialGraph: Graph[Double, PartitionID] = graph.mapVertices((id, _) => if (id == sourceId) 0.0 else Doub

2017-03-08 22:02:01 1919

原创关于ThreadLocal

从如下8点来讲解一下：1.ThreadLocal用来解决多线程程序的并发问题2.ThreadLocal并不是一个Thread,而是Thread的局部变量,当使用ThreadLocal维护变量时,ThreadLocal为每个使用该变量的线程提供独立的变量副本,所以每个线程都可以独立地改变自己的副本,而不会影响其它线程所对应的副本.3.从线程的角度看，目标变量就象是线程的本地变量，这也是类名中“Loc

2017-03-08 17:35:59 378

原创 Scala/Java中的反射机制探索

最近看Spark源码，看到在Spark这种底层架构中用到很多Scala/Java的反射机制，在网上看了一些关于Scala/Java反射机制的原理和用处，总结如下。scala的多线程的实现依赖于JVM的，在反射机制中也是完全套用了Java的反射机制，所以本文讨论的实际上就是Java的反射机制。反射机制的用处：1、在已有一个类的对象，在运行之前并不能确定这个对象对应的Class的时候，需要在运行时

2017-03-08 16:53:31 3020

原创 nodejs微信后台验证

介绍微信公众号后台开发中，最简单的验证方法。编程语言使用nodejs

2016-10-09 16:13:55 1437

原创 tensorflow中mnist 使用cnn模型训练的输出层数为7x7的原因

returntf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')Given an input tensor of shape `[batch, in_height, in_width, in_channels]`x的输入各列含义为[batch,输入高度，输入宽度，输入通道数]W为[filter_height, filter_w

2016-09-21 18:30:33 1240

原创 tensorflow RuntimeError: module compiled against API version 0xa but this version of numpy is 0x9问题

import numpyprint numpy.__path__在发生错误的python环境下执行这两个命令，手动删除旧版本的numpy

2016-09-21 15:28:54 11832 2

jiangda_0_0的博客