- 博客(22)
- 资源 (2)
- 收藏
- 关注
原创 java.lang.NoSuchMethodError: breeze.linalg.DenseVector$.canSetD()
背景:跑时间序列模型报错环境:scala 2.11 + spark 2.0报错:java.lang.NoSuchMethodError: breeze.linalg.DenseVector$.canSetD()...........解决:(1) 经查,同一个包的两个版本均存在,即breeze_2.10 和 breeze_2.11,但其中breeze_2.10被exclude掉(2) 查breez_...
2018-05-23 15:19:52 1304 2
转载 特征离散和特征选择
连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里?A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0、 离散特征的增加和减少都很容易,易于模型的
2018-03-20 17:18:36 2584
原创 scala map排序
def main(args: Array[String]): Unit = { val aMap = new scala.collection.mutable.HashMap[String, Double] val a = Array("A", "B", "C", "D") val b = Array(4, 5, 8, 9) for(i <- a.indices){
2017-06-29 16:52:20 7956
原创 Mac virtualenv创建新环境报错
前言:Mac,已经安装好virtualenv但是创建沙箱环境的时候报错,报错信息如下:Arons-MacBook-Pro:virtualenv_tensorflow aron$ virtualenv venv_tensorflowNew python executable in /Users/aron/Documents/work_python/virtualenv_tensorflow
2017-05-04 20:41:22 2212
原创 NoSuchMethodError:org.apache.spark.rdd.RDD.mapPartitionsInternal$default$2()Z
变态的spark sql 解决方案:版本!!!!!!
2017-03-16 21:45:44 1596
原创 spark sqlContext异常
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/types/DataTypeParser at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(
2017-03-14 19:48:36 3382 2
原创 Theano predict
def predict( dim_proj=128, # word embedding的维数和隐藏层的维数,用默认值。(word embedding是一种将一个词转成一个向量的过程,这里不去深究) patience=10, # 该参数用于earlystop,如果10轮迭代的误差没有降低,就进行earlystop max_epochs=4000,
2017-01-05 17:48:53 476
原创 Python 多进程
import multiprocessingimport timedef func(msg): for i in xrange(3): print msg time.sleep(1) # 休眠1秒# 单进程def one_process(): p = multiprocessing.Process(target=func, args=("hello",))
2016-12-22 16:56:33 680
原创 多叉树遍历
import nltk.tree as tree# 递归遍历def test(t): if isinstance(t, str): print t else: for i in range(len(t)): test(t[len(t)-i-1])# 非递归遍历def test_2(t): stack = []
2016-12-22 16:00:40 1054
转载 git 给远程库 添加多个url地址
前提一般来说,我们为git增加远程库,一般都是git remote add origin ( 你可以使用真实的地址来代替 \ )但是你可能想要把你的本地的git库,既push到github上,又push到开源中国的Git@OSC上,怎么解决呢。有人可能会用两个甚至多个远程库,即再添加一个远程库git remote add origin2;这个方法很低效,因为你要git pus
2016-12-19 09:45:44 8334 2
原创 NLTK+stanford parser
在使用NLTK+stanford parser进行句法分析的时候发现,包含某些字、词的句子无法进行解析(如“你”,“一样”),一开始以为是stanford parser的问题,后来才发现是nltk中stanford.py文件的某行代码作祟:stdout = stdout.replace(b'\xa0',b' ')你:\xe4\xbd\xa0 一样:\xe4\xb8\x80\xe6\xa0\x
2016-12-14 16:41:06 1504
原创 读取HDFS文件目录的方法
欢迎使用Markdown编辑器写博客首先添加依赖://注意后面的provided,缺少会报包冲突的错误libraryDependencies += "org.apache.hadoop" % "hadoop-hdfs" % "2.7.2"%"provided"import org.apache.hadoop.fs.{FileSystem, FileUtil, Path}val hdfsPath
2016-12-12 19:35:39 6659
原创 sftp上传文件夹
情景:利用sftp中将本地文件夹/home/sentiment/Data (内包含子文件夹) ,复制到服务器的/home/work目录下 命令: put步骤:1.首先定位到远程/home/work/目录下: cd /home/work/2.在word目录下新建Data文件夹: mkdir Data3.进入远程Data文件夹: cd Data4.本地定位到sentiment文
2016-11-08 15:18:54 43278
原创 ubuntu系统上SSH连接掉线问题
本地系统: ubuntu远程系统: ubuntu连接工具: ssh问题: 连接后如果一段时间不操作, 就会自动断开连接解决方案:1. sudo gedit /etc/ssh/ssh_config , 如果不存在则加上 ServerAliveInterval 152. sudo gedit /etc/ssh/sshd_config, 如果不存在则加上 ClientAl
2016-11-08 14:36:24 5295
原创 scala中.map()方法
scala中 .map()方法的三种案例,能可以说明的问题: 1、T.map() => T 2、只有RDD.map() 是懒操作,,其他不是
2016-05-20 15:41:59 5059
原创 Spark中TF_IDF含义
Spark中MLlib库中集成有计算TF_IDF的方法,其输出结果的含义如下:疑问:1、输出的TF值并不是词频,,而是词数(注意词频和词数的区别)
2016-05-20 15:33:22 464
【SVM】文本多分类源码(亲测可用加注释)
2016-03-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人