自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 macOS trustd进程占用CPU高问题解决办法

1.关机2.按住command+R开机,出现进度条松手3.选择用户,输入密码,进入Recovery模式4.打开终端,输入csrutil disable.5.成功后,重启进入系统。6.打开终端,cd /private/var/protected/trustd/进入路径,用root用户权限删除valid.sqlite3文件。sudo rm -rf valid.* ,输入密码。7.重启系统,此时trustd任务占用cpu资源的问题就会解决。8.重新进入recovery模式,打开终端,输

2022-02-25 19:55:20 3222

原创 文本分类的一些建议

文本分类模型常用的文本分类方法有,TF-IDF、Word2Vec、NB、SVM、LR、RNN、CNN等传统的文本分类模型需要大量的特征工程,而基于神经网络的模型,通过向量化词语,可以省去大量的特征工程。往往有比较好的效果使用RNN模型可以捕捉文本的上下文信息,CNN模型的效果受window大小的影响比较大,window的大小定义了模型的“视野”的大小,所以这里我们使用RNN模型,常见的实现有LST...

2018-05-09 20:09:01 933

原创 Spark XGBoost的一些问题

在使用Spark版本的xgboost的时候会有一些单机版本遇不到的问题,可能对使用的人造成一些困扰,经过两周的踩坑,总结一下,希望有帮助1、输入、预测数据的一致性Spark版本的XGBoost处理的输入可以是RDD或者DataFrame。由于Spark的机制,在没有显式指定的情况下,是不会保存RDD或者DataFrame的内容的。所以预测之后得到结果的RDD和原本输入的RDD不能够保证对应

2017-12-06 11:28:14 4482 1

原创 Linux找不到jni.h或者找不到jni_md.h原因及解决方案

1. 背景很多朋友在日常工作中会使用到java的jni功能。在Linux环境下当编译c文件时可能会报出找不到jni.h、找不到jni_md.h的错误。2.简介首先,不要怀疑是jdk出现了不完整的问题,这会让你走很多弯路,最后还解决不了问题。以我的jdk1.7.0_75为例,两个头文件的位置分别为:jni.h jdk1.7.0_75/i

2017-07-07 17:42:45 12138 1

翻译 地理坐标的六边形编码(PHXIS)

基本概念#1 - 存在物理位置和时间人类的交互基础在于时间和空间的框架。我们发现,我们反应、认知、潜意识/意识的形成是通过大脑中的神经网络系统来完成的,神经系统能够处理外来的信号。数字化的计算机,作为控制理论的一部分,通过不断扩充我们以上的能力,整体的提升了人类的智能水平。关于物理空间时间和空间的模型是形而上的。欧几里得的相关理论定义了一个形而上的连续空间模型,通过分析地理信息和代数,

2017-06-27 14:59:42 3611

原创 关于spark Executor OOM的问题引发的联想

最近被问到executor OOM如何处理的问题,一开始想可以调整spark.executor.cores的大小,因为每个executor中多个task是共享同一个heap的大小的,spark中资源的分配是以executor为单位分配的。另外在看join和cogroup的区别的时候,发现join是在cogroup基础上封装的,但是join有可能会有笛卡尔积的情况。具体原因,这里不展开。看源

2017-04-07 23:54:27 1480

转载 在机器学习中各分类方法的优缺点

作者:Jason Gu链接:https://www.zhihu.com/question/24169940/answer/26952728来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。尝试将quora上的这个回答翻译了下。第一次翻译,不好之处请见谅。What are the advantages of different classifi

2017-03-13 12:02:08 4326

原创 Graphx社区发现算法学习

现实生活中存在各种各样的网络,诸如人际关系网、交易网、运输网等等。对这些网络进行社区发现具有极大的意义,如在人际关系网中,可以发现出具有不同兴趣、背景的社会团体,方便进行不同的宣传策略;在交易网中,不同的社区代表不同购买力的客户群体,方便运营为他们推荐合适的商品;在资金网络中,社区有可能是潜在的洗钱团伙、刷钻联盟,方便安全部门进行相应处理;在相似店铺网络中,社区发现可以检测出商帮、价格联盟等,对商

2017-03-10 19:17:15 6091

原创 Spark中的mapPartitions

在使用Spark链接到外部服务过程中,比如JDBC等,如果对于RDD中每一条信息建立一个链接,会导致链接数过多,而且在这种情况下,快速且大量的简历链接和释放,会造成比较大的资源浪费。在这种情况下,特别是如果有batch接口的情况下,通过mapPartitions,对一个Partition中的数据来说,只建立一个链接或者通过这一个链接进行batch请求,会在很大程度上的节约现有的资源,提高资源的

2017-03-09 15:50:31 922

原创 关于Graphx中的pregel的API理解

由于在做一些图论相关的工作,平时工作中使用Spark比较多,所以决定学习一下Graphx,对以后挖掘数据会比较有帮助。Graphx的入门之SSSP(单源点最短路径) val inintialGraph: Graph[Double, PartitionID] = graph.mapVertices((id, _) => if (id == sourceId) 0.0 else Doub

2017-03-08 22:02:01 1710

原创 关于ThreadLocal

从如下8点来讲解一下:1.ThreadLocal用来解决多线程程序的并发问题2.ThreadLocal并不是一个Thread,而是Thread的局部变量,当使用ThreadLocal维护变量时,ThreadLocal为每个使用该变量的线程提供独立的变量副本,所以每个线程都可以独立地改变自己的副本,而不会影响其它线程所对应的副本.3.从线程的角度看,目标变量就象是线程的本地变量,这也是类名中“Loc

2017-03-08 17:35:59 328

原创 Scala/Java中的反射机制探索

最近看Spark源码,看到在Spark这种底层架构中用到很多Scala/Java的反射机制,在网上看了一些关于Scala/Java反射机制的原理和用处,总结如下。scala的多线程的实现依赖于JVM的,在反射机制中也是完全套用了Java的反射机制,所以本文讨论的实际上就是Java的反射机制。反射机制的用处:1、在已有一个类的对象,在运行之前并不能确定这个对象对应的Class的时候,需要在运行时

2017-03-08 16:53:31 2912

原创 nodejs微信后台验证

介绍微信公众号后台开发中,最简单的验证方法。编程语言使用nodejs

2016-10-09 16:13:55 1362

原创 tensorflow中mnist 使用cnn模型训练的输出层数为7x7的原因

returntf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')Given an input tensor of shape `[batch, in_height, in_width, in_channels]`x的输入各列含义为[batch,输入高度,输入宽度,输入通道数]W为[filter_height, filter_w

2016-09-21 18:30:33 1154

原创 tensorflow RuntimeError: module compiled against API version 0xa but this version of numpy is 0x9问题

import numpyprint numpy.__path__在发生错误的python环境下执行这两个命令,手动删除旧版本的numpy

2016-09-21 15:28:54 11691 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除