学习
tsf_1993
自然语言处理,数据挖掘,机器学习
展开
-
短文本相似度计算
短文本相似度计算方法最长公共子序列编辑距离相同单词个数/序列长度word2vec+余弦相似度Sentence2Vector https://blog.csdn.net/qjzcy/article/details/51882959?spm=0.0.0.0.zFx7QkDSSM(deep structured semantic models)(BOW/CNN/RNN) https:...原创 2018-05-02 20:32:02 · 15194 阅读 · 0 评论 -
nested exception is java.lang.NoSuchMethodError: com.fasterxml.jackson.core.JsonGenerator.writeStart
spring boot 搭建的web工程中@RestController@RequestMapping("/")public class solrController { @RequestMapping(value = "/demo.json", method = RequestMethod.GET) @ResponseBody public HashMap<String,原创 2017-04-20 17:59:05 · 23647 阅读 · 1 评论 -
es
[elsearch@solr1 bin]$ ./elasticsearch 错误: 找不到或无法加载主类 org.elasticsearch.tools.JavaVersionChecker Elasticsearch requires at least Java 8 but your Java version from /usr/java/jdk1.8.0_91/bin/java does n原创 2017-04-06 14:43:19 · 3485 阅读 · 3 评论 -
20170323
linux 环境变量[root@master1 ~]# export[root@master1 ~]# echo $PATHvim ~/.bashrcvim /etc/profile命令输入:export PATH=$PATH:/mypath文件中加入:export PATH="/home/mypath/anaconda3/bin:$PATH"原创 2017-03-23 17:17:02 · 269 阅读 · 0 评论 -
operation_hbase
package solr_search.tsf.hbase.domain;import java.io.IOException;import java.lang.reflect.Field;import java.util.ArrayList;import java.util.HashMap;import java.util.LinkedHashMap;import java.util.L原创 2017-03-01 14:37:31 · 368 阅读 · 0 评论 -
spring4包
Spring AOP:Spring的面向切面编程,提供AOP(Aspect-Oriented Programming,面向切面编程)的实现 Spring Aspects:Spring提供的对AspectJ框架的整合 Spring Beans:Spring IOC(Inversion of Control,控制倒转)的基础实现,包含访问配置文件、创建和管理bean等。 Spring Contex原创 2016-11-28 09:22:12 · 371 阅读 · 0 评论 -
错误
def tran(document: Iterable[_]): mutable.Map[Int,String] = { val termFrequencies = mutable.HashMap.empty[Int, String] val hashFunc: Any => Int = getHashFunction document.foreach { term =>原创 2016-12-09 20:23:52 · 288 阅读 · 1 评论 -
spark file streams
For reading data from files on any file system compatible with the HDFS API (that is, HDFS, S3, NFS, etc.), a DStream can be created as:streamingContext.fileStream[KeyClass, ValueClass, InputFormatClas原创 2016-12-06 11:38:07 · 343 阅读 · 0 评论 -
java 反射demo
import java.lang.reflect.*;public class ReflectDemo { /** * 为了看清楚Java反射部分代码,所有异常我都最后抛出来给虚拟机处理 */ public static void main(String[] args) throws ClassNotFoundException, IllegalAccessExce转载 2016-11-22 11:21:45 · 487 阅读 · 0 评论 -
spark2.0 tfidf
MLpackage org.apache.spark.ml.featureimport org.apache.spark.annotation.Sinceimport org.apache.spark.ml.Transformerimport org.apache.spark.ml.attribute.AttributeGroupimport org.apache.spark.ml.param转载 2016-11-29 18:28:28 · 1100 阅读 · 0 评论 -
Hbase shell Loading Coprocessors
Loading1.Disable the table using HBase Shell:hbase> disable 'users'2.Load the Coprocessor, using a command like the following:hbase>alter 'users', METHOD => 'table_att', 'Coprocessor'=>'hdfs://<namenod转载 2016-09-26 11:24:07 · 519 阅读 · 0 评论 -
spring boot
application.properties 1.5.2# LOGGINGlogging.config= # Location of the logging configuration file. For instance `classpath:logback.xml` for Logbacklogging.exception-conversion-word=%wEx # Conversion转载 2017-05-09 16:31:43 · 583 阅读 · 0 评论 -
textsum
TypeError: a bytes-like object is required, not ‘str’TypeError: sequence item 0: expected str instance, bytes found RuntimeError: Coordinator stopped with threads still running: Thread-32[[ 21 21原创 2017-07-22 11:07:17 · 896 阅读 · 0 评论 -
从图片中提取人脸
提取一个人脸from PIL import Imageimport face_recognition# Load the jpg file into a numpy arrayimage = face_recognition.load_image_file("one.jpg")# Find all the faces in the image using the default H...原创 2018-03-06 16:53:55 · 4080 阅读 · 1 评论 -
ML-笔记3
根据时间文本描述对其进行分类http://sklearn.apachecn.org/cn/0.19.0/tutorial/text_analytics/working_with_text_data.html原创 2017-12-14 21:53:29 · 194 阅读 · 0 评论 -
ML-笔记2
。。。原创 2017-11-30 21:38:09 · 172 阅读 · 0 评论 -
ML-笔记1
第一章原创 2017-11-30 20:53:44 · 191 阅读 · 0 评论 -
linux 命令
后台运行python 代码nohup python work.py & 少量文本win->linuxrz -nbe原创 2017-11-05 21:13:17 · 189 阅读 · 0 评论 -
123
123原创 2017-10-19 14:56:41 · 182 阅读 · 0 评论 -
同步锁synchronized 关键字的使用效果
package com.sf.LianCheng.demo;public class Runnable_demo implements Runnable{ private int ticket=10; public Runnable_demo(){ } @Override public void run() {转载 2017-08-18 09:23:09 · 464 阅读 · 0 评论 -
python 三元组找上下位相同的词
import jiebaimport nltkf=open("corpus.txt", 'r', encoding='utf-8',)sents=[]for line in f: sents.extend(jieba.cut(line.strip()))finder=nltk.collocations.TrigramCollocationFinder .from_words(sen原创 2017-08-16 18:20:48 · 1248 阅读 · 0 评论 -
tomcat7 类加载机制
1.OverviewLike many server applications, Tomcat installs a variety of class loaders (that is, classes that implement java.lang.ClassLoader) to allow different portions of the container, and the web app转载 2017-08-16 15:28:47 · 256 阅读 · 0 评论 -
linux 命令
用户能够运行命令但sudo 命令显示找不到文件[root@solr3 anaconda3]#sudo jupyterhubsudo:jupyterhub:找不到命令解决办法:创建文件软连接#which 查找文件位置[root@solr3 anaconda3]# which jupyterhub/root/anaconda3/bin/jupyterhub[root@solr3 anacond原创 2016-10-31 13:56:00 · 747 阅读 · 0 评论 -
linux 文件权限命令chmod
chmod [options] mode files只能文件属主或特权用户才能使用该功能来改变文件存取模式。mode可以是数字形式或以who opcode permission形式表示。who是可选的,默认是a(所有用户)。只能选择一个opcode(操作码)。可指定多个mode,以逗号分开。options:-c,--changes只输出被改变文件的信息-f,--silent,--quiet当chmo转载 2016-10-28 16:19:59 · 340 阅读 · 0 评论 -
二叉树
如何判断一棵树是否为二叉排序树? 二叉查找树(Binary Search Tree),也称有序二叉树(ordered binary tree),排序二叉树(sorted binary tree),是指一棵空树或者具有下列性质的二叉树:若任意节点的左子树不空,则左子树上所有结点的值均小于它的根结点的值;若任意节点的右子树不空,则右子树上所有结点的值均大于它的根结点的值;任意节点的左、右子树也转载 2016-03-07 15:37:49 · 249 阅读 · 0 评论 -
word2vec简介
是什么? 谷歌开源的一款基于Deep Learning的学习工具——word2vec,word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。什么用? 1. 将词转换成向量。 2. 向量的余玄夹角可以近似表示两个词得相识度(求近义词)。怎么用? 1. 将工具word2vec放入linux下,进入工原创 2016-03-05 19:57:44 · 647 阅读 · 0 评论 -
正确率 召回率 F值
正确率 = 正确识别的个体总数 / 识别出的个体总数 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。Seaeagle撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下: 正确率转载 2016-03-05 10:54:53 · 507 阅读 · 0 评论 -
邻近算法KNN
是什么? (kNN,k-NearestNeighbor)是一个无监督的机器学习分类算法所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。原创 2016-03-05 10:13:15 · 733 阅读 · 0 评论 -
推荐算法
推荐算法大致可以分为三类:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。重点内容基于物品的协同过滤和内容过滤有什么区别? 基于物强调内容品的协同过滤,首先从数据库里获取他之前喜欢的东西,然后从剩下的物品中找到和他历史兴趣近似的物品推荐给他。核心是要计算两个物品的相似度。内容过滤的基本思想是,给用户推荐和他们之前喜欢的物品在内容上相似的其他物品。核心任务就是计算物品的内容相似度协同过滤推原创 2016-03-04 21:45:30 · 522 阅读 · 0 评论 -
luence入门实战第一步
原文地址:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/Lucene 简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 目前已转载 2015-09-23 15:35:30 · 519 阅读 · 0 评论 -
python2.7 numpy scipy
python2.7开发环境,若为python3.4的环境则下载对应的软件系统为64为windows环境,显然不同于32的环境,更繁琐,所谓的网友教程也不尽人意。安装numpy 下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/下载软件:numpy-MKL-1.9.1.win-amd64-py2.7.exe安装scipy 下载地址:http://www.原创 2015-10-13 09:09:09 · 1623 阅读 · 0 评论 -
一种新型的基于隐马尔科夫模型—支持向量机模型的文本分类方法
一种新型的基于隐马尔科夫模型—支持向量机模型的文本分类方法英语------>中文翻译 2015-09-18 09:18:30 · 5725 阅读 · 0 评论 -
神经网络学习网站
http://ufldl.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8Bhttp://www.wildml.com/http://colah.github.io/原创 2016-04-08 14:55:36 · 555 阅读 · 0 评论 -
eclipse 重新加载项目遇到的问题
The entity has no primary key attribute defined 实体没有定义主键属性初步解决办法: Windows->Persistence->Java Persistence->JPA->Errors/Warnings->Type,将选项Entity has no primary key设为警告或更低的提示级别。(错误提示变成了警告提示,治标不治本)原创 2016-06-24 13:39:27 · 3722 阅读 · 0 评论 -
centos7快速升级jdk
[root@localhost 桌面]# java -versionopenjdk version "1.8.0_65"OpenJDK Runtime Environment (build 1.8.0_65-b17)OpenJDK 64-Bit Server VM (build 25.65-b01, mixed mode)[root@localhost 桌面]# rpm -qa|grep j原创 2016-06-28 14:33:55 · 483 阅读 · 0 评论 -
Launching Spark on YARN
Ensure that HADOOP_CONF_DIR or YARN_CONF_DIR points to the directory which contains the (client side) configuration files for the Hadoop cluster. These configs are used to write to HDFS and connect to转载 2016-09-06 10:03:36 · 785 阅读 · 0 评论 -
theano GPU
http://deeplearning.net/software/theano/tutorial/using_gpu.html安装cuda 下载:https://developer.nvidia.com/cuda-downloads添加环境变量$ export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}$ export LD_LIBRARY_PATH原创 2016-11-04 15:28:31 · 277 阅读 · 0 评论 -
Ubuntu下添加开机启动
1.将你的启动jupyter.sh脚本复制到 /etc/init.d目录下 2.设置脚本执行权限sudo chmod 755 /etc/init.d/jupyter.sh3.将脚本放到启动脚本中去$ cd /etc/init.d$ sudo update-rc.d jupyter.sh defaults 100在jupyter.sh脚本中添加LSB信息#!/bin/sh### BEGIN原创 2016-11-04 15:05:06 · 619 阅读 · 0 评论 -
错误
nvcc fatal : Path to libdevice library not specified WARNING (theano.sandbox.cuda): CUDA is installed, but device gpu is not available (error: cuda unavailable)Using gpu device 0: GeForce GTX 1080 (原创 2016-11-03 09:12:53 · 2653 阅读 · 0 评论 -
spark Streaming 实例
流数据模拟器在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序。 模拟器代码:import java.io.{PrintWriter}import java.net.ServerSocketimpor转载 2016-09-08 13:05:48 · 287 阅读 · 0 评论