自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Tiffany_Li2015的博客

记录本身就是一种修行

  • 博客(43)
  • 收藏
  • 关注

转载 转载:latex中.bb not found问题

对于一个jpg图片,首先需要一个名叫ebb的工具,用ebb生成对应的BoundingBox文件。如输入命令(对于一个tex文件,用WinEdt打开后,在下方console窗口上有一排按钮,选择黑色图片(windows command prompt)按钮),输入: ebb fuxk.jpg注意,这里的jpg图片与tex文件在同一文件夹下,这样在相同目录下会生成同名后缀为bb的文件,用记事本打开这个文...

2018-02-27 17:29:50 2390

原创 文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计及跟NLP推荐的好博客

http://blog.csdn.net/yangliuy/article/details/8296481非常好的一篇文章。普及NLP常见的数学常识。如:1、文本分析的三种参数分析方法:最大似然估计MLE,最大后验概率估计MAP,贝叶斯估计。

2016-06-15 20:04:34 1934

原创 科研人员的自我修养

1、工具篇1.1 代码管理工具如git结合bitbucket的使用1.2 项目构建工具如maven1.3 文献管理工具 Zotero2、习惯篇2.1 数据备份 包括代码,数据,文献(可选)

2016-06-14 16:05:29 876

原创 程序员的自我修养

模块一:写代码fileutil的习惯extend的习惯

2016-06-12 10:54:56 588

转载 java实现多线程

创建一个线程:1、通过实现Runnable接口执行一个方法:public void run()实例:// 创建一个新的线程class NewThread implements Runnable { Thread t; NewThread() { // 创建第二个新线程 t = new Thread(this, "Demo Threa

2016-06-06 21:16:38 416

转载 git常用命令(标黑放大属于常用命令)

git config --global user.name "xxx" # 配置用户名 git config --global user.email "[email protected]" # 配置邮件 git config --global color.ui true # git status等命令自动着色 git config --global

2016-06-06 20:41:19 753

原创 如何将本地磁盘映射到服务器

见网页:http://jingyan.baidu.com/article/676629977fa5b454d51b84ac.html关键词:mstsc------>本地资源

2016-06-03 21:56:43 1518

原创 Numpy库在机器学习算法中常用函数

NumPy库总包含两种基本的数据类型:矩阵和数组,矩阵的使用类似Matlab,本实例用得多的是数组array。shape()shape是numpy函数库中的方法,用于查看矩阵或者数组的维素>>>shape(array) 若矩阵有m行n列,则返回(m,n)>>>array.shape[0] 返回矩阵的行数m,参数为1的话返回列数ntile()tile是nump

2016-04-28 17:54:41 1235

转载 使用 Python 模块 re 实现解析小工具

原文出处http://www.ibm.com/developerworks/cn/opensource/os-cn-pythonre/ 列举可学习的几点(不全)1、正则表达式的系统学习。2、应用实践。3、Google App Engine的科普及使用Python 模块 re(Regular Expression)是一个很有价值并且非常强大的文本解析工具,本文通过一个简单有趣的小实例来分享一下此

2016-04-06 11:03:22 603

原创 Python文本处理常用代码总结(三)

linux下可以直接根据文件名拷贝其内容import shutilimport sysdataid = open(sys.argv[1])for i in dataid: i = i.strip() #shutil.copy(i,'./train_svm/') shutil.copy(i,sys.argv[2])注意:文件名前要加“r”或“\\”或"/"

2016-04-05 16:05:26 486

原创 在linux自己目录下(没有管理员权限)安装java

1、选择合适自己系统的Java版本下载。http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html (使用uname -a查看系统版本)2、放至一个目录下,假设直接放在自己的根目录/home/username/java下3、解压: 命令 tar -zxvf jdk....tar.gz

2016-04-02 16:09:58 3566

原创 主题分析的两篇综述

1、Social sentiment sensor: a visualization system for topic detection and topic sentiment analysis on microblog来自哈工大做自然语言理解的研究组发表的。该篇论文主要是针对微博数据做热点话题的分析以及对这些热点话题倾向性分析。主题分析这块儿分1预处理(过滤掉不足4个gram的多于30个gra

2016-03-24 15:02:14 1906

原创 使用HanLP配置文件经常消失

把备份hanlp.properties文件放在bin文件下即可

2016-03-10 11:50:05 1555 1

原创 python文本处理常用工具代码(一)

1、读写excel读用xrld,写用pyelecrator安装后者需要下载压缩包,然后解压,之后在解压目录下运行python setup.py install,切记不能copy到site-package下再打开运行脚本(很多网页提倡,然并卵)脚本好写:注意使用中文时候注意事项,一、文件编码,二、头文件中加的两句话,三、"u"的使用写excel:#-*- coding: utf8

2016-03-01 10:27:30 1079

转载 PCA数学原理

http://www.360doc.com/content/13/1124/02/9482_331688889.shtml很难得通俗易懂重点是深刻地讲解了PCA的数学原理,知其然并知其所以然,这才叫学知识。十分感谢

2016-02-23 21:41:43 406

转载 立委科普:语言学算法是 deep NLP 绕不过去的坎儿

转自:http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&quickforward=1&id=957950 如有版权问题,请联系我以前论过 (【NLP主流最大的偏见,规则系统的手工性】),(有监督)机器学习的知识瓶颈是需要大量的带标数据(labeled data),以克服稀疏数据(spars

2016-02-23 11:53:17 576

原创 java文本处理常用代码总结(二)

一、使用命令行调用java程序main函数中(//java从0命令行输入,而python从1) Integer threadcount=Integer.parseInt(args[0]); String file_in=args[1]; String file_out=args[2]; excute_in_main(threadcount, file_in,file_out);

2016-02-18 10:43:47 655

原创 Python文本处理常用代码总结(二)

一、两步在java中调用python1、在大类中加入这样的一个方法 private static boolean CallPython(String string) throws Exception{ Process proc = Runtime.getRuntime().exec(string); proc.waitFor(); return true; }2、在

2016-02-18 10:38:39 1529

原创 Python文本处理常用代码总结(一)

1、使用固定编码打开、读取文件import osimport sysimport codecsfile_in=codecs.open(filename,"r",encoding="GBK")out="*****"file_out=codecs.open(out,"w",encoding="utf-8")filelines=file_in.readlines()for line

2016-02-18 10:08:31 1588

原创 2016上半年科研日志

2016年2月16-2016:英语,建立主页,interspeech文字

2016-02-17 20:10:57 1465

原创 如何在谷歌上建立自己的个人主页

见 http://www.360doc.com/content/15/0724/08/21544473_487024989.shtml

2016-02-17 11:35:19 4113

转载 2016年,文本分析、情感分析和社交分析的10大趋势

2016-02-15  Seth Grimes  InfoQ文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据源中提取商业洞察力。目前分析技术发展得还是相当不错的,尽管在某些领域,例如数字分析和市场研究有些稍稍落后。但是甚至是在例如“

2016-02-17 11:12:12 1378

原创 几个做科研的好习惯建议

1、用LaTeX写自己的伟大的论文如上篇所说,多写,如果愿意还可以发布到arXiv.org上先占着个坑,也可以让大家督促你的工作。(英文)2、写技术博客,如CSDN,大大小小跟科研和技术有关的都可以往上放,之前没有记录的习惯,后来才意识到记录的重要性,真的非常非常非常重要。3、代码管理软件,如SVN,github得要有一个,并保持更新。4、有问题找谷歌, stackoverflow,

2016-01-25 23:22:16 2272 1

原创 听Simon Peyton Jones讲如何写一篇伟大的论文

废话不多说,喜欢看原著的见这里 http://v.youku.com/v_show/id_XMTQ0MzcwODM3Mg==.html下面我来讲一下这个老师讲到的7个建议中我受益的地方:1、Don't wait. 改变以前做研究的思路 topic(idea)---do research---writer paper,这是大多数人一贯的做法而且我们确实一直以来受到这样的教育认为是对的。其实,

2016-01-25 23:11:39 787

原创 LaTex使用表格常见问题集锦

上篇中提到了如何在单栏中插入双栏的表格,但LaTex表格使用经常还会遇到各式各样的问题。如:1、如何在表格单元格中换行,解决方法是:在文章开头插入条目:\newcommand{\tabincell}[2]{\begin{tabular}{@{}#1@{}}#2\end{tabular}}使用的使用就可以使用\tabincell{c}了。如:Rule4 & \tabincell{

2016-01-24 17:08:15 10986

原创 LaTex 单栏样式模板中插入双栏表格

在LaTex写作中经常会遇到双栏模板中想插入单栏的大表格,或者在单栏的模板中想插入双栏的两个独立或者不独立的小表格既省空间看起来又简洁好看。今天重点说一下后者,以备以后不时之需。原始出处见http://tex.stackexchange.com/questions/2832/how-can-i-have-two-tables-side-by-sideIf you want to use

2016-01-24 16:18:38 8378

原创 Latex使用常见问题

1、如何在英文latex模板中加入中文% UTF-8 encoding, pdflatex or latex+dvipdfmx% Simplified Chinese fonts should be installed\documentclass{article}\usepackage{CJKutf8}\AtBeginDvi{\input{zhwinfonts}}\begin{d

2016-01-18 20:21:07 741

转载 数据挖掘这一大领域的感想

转自http://blogs.baomitec.com/2015/05/08/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E7%9A%84%E4%B8%80%E7%82%B9%E6%84%9F%E6%83%B3/在数据挖掘领域,的确是一小撮人在看一大堆人在裸奔,而那一小撮人都在互相看对方裸奔,所以,将来物物互联的社会,这个必定是一个趋势也必将会成为

2015-12-22 20:41:40 2622

原创 使用360浏览器出现域名解析错误和有道词典连接不了网络的解决方法

从易到难说:1、检查下自己的网络配置,打开网络和共享中心-更改适配器设置-点击右键属性-Internet协议版本4(TCP/IPv4)-打开后,检查自己的网络配置,尤其是DNS,可以使用自己局域网的DNS, 也可以使用公用的如谷歌的8.8.8.8或者阿里的223.5.5.5。这样做的好处就是可以仍使用自己的IP地址和配置。2、使用360,断网急救箱。简单粗暴,不好的就是会把网络配置改成自动

2015-12-22 11:05:47 5512

原创 TextRank

TextRank是一种求自动摘要(句子级的pagerank)和关键词(词语级的pagerank)的主要方法之一。下面我就来说说textrank的来源以及算法TextRank来源于Pagerank, Pagerank是一种网页排名在1998年由谷歌larry Page它的名字命名由来。主要思想就是有权重网页所链接到的网页权重越高,以这样的方式判别网页的重要程度防止垃圾网站作弊行为。确切来说:如果

2015-12-17 10:27:20 1683

原创 热词发现的算法都有哪些?

1、TFIDF的运用,如算出每个文档中单词的TFIDF后,比较大小,直接加权或者取TopN.这个可以自己写也可以用工具sklearn.(不过使用中文时注意上篇中提到的注意事项)2、主题模型方法,使用gensim中的LDA等最后使用词云工具如pyTagcloud进行可视化展示

2015-12-09 21:29:57 1930

原创 Sklearn TFIDF中文计算问题以及解决方法

我在使用sklearn中的ITIDF工具,想来这是在文本处理中常用的有个现成的工具一定是极好的。但是网上查了下代码试了下并没有得到跟他们一样的结果。现象是这样的,凡是输入的是中文就直接被忽略掉了,如果全是中文就直接空输入了。当然,前提已经排除掉是编码或者unicode的错误了。网上搜到的代码参考:from sklearn.feature_extraction.text import Tfi

2015-12-09 15:20:12 7596 1

原创 PyTagcloud工具使用——显示中文词云

预备条件:电脑上装有1python 2 pygame然后再使用命令行装pyTagcloud注意:在windows下的话使用pip install命令的时候,如果你的Python不在user目录下,就不用多加--user参数,而是直接pip install pytagcloud开始:1、首先不管你用什么方法,TFIDF,词频统计或者已知词汇也好得到一个词表,因为要显示的就是他们,接下

2015-12-08 15:35:08 3197 1

转载 再谈深度学习文本的表示

阅读目录深度模型如何学习和表示词、短语、句子和篇章呢?几大前景方向:作者:尹文鹏,德国慕尼黑大学博士研究生二年级,自然语言处理方向。先后在西北工业大学和北京大学获得本科,硕士学位。小编:文本表示随着深度学习这把火也跟着旺了起来,各大会议上论文成出不穷,值得关注。之前在百度开放研究社区写了篇``深度学习文本的表示'', 现在这篇姑且作为其升级篇吧。 因此本文再谈

2015-11-26 21:40:36 745

转载 java读取文件夹所有文件

import java.io.FileNotFoundException;import java.io.IOException;import java.io.File;public class ReadFile {        public ReadFile() {        }        /**         * 读取某个文件夹下的所有文件

2015-11-14 17:27:30 427

原创 读取HashMap尤其是比较复杂结构时Entry报错

如要使用迭代器读取结构HashMap> sen4即Iterator>> sen4iter=sen4.entrySet().iterator();Entry处报错解决方法:替换import java.security.KeyStore.Entry;为import java.util.Map.Entry;

2015-11-14 16:19:35 522

原创 Protege一种本体构建编辑器

1、下载方式一:可以通过官网渠道下载最新版本http://protege.stanford.edu/products.php#desktop-protege方式二:下载现在中文说明文档均提到的版本4.3 http://protege.stanford.edu/download/protege/4.3/installanywhere/Web_Installers/但是均有各自问题:方

2015-11-12 14:22:41 2217 1

原创 Xshell界面输出中文乱码现象解决方法

[文件]-->[打开]-->在打开的会话session中选择连接的那个 ,点击属性properties -> 终端[Terminal ] ,在右边的转换translation先选择编码utf8就可以啦.

2015-10-30 11:40:17 1735

原创 NLP 最近常用分词工具

1、python工具包结巴分词,可直接使用easy_intall下载,方便。http://www.oschina.net/news/34492/jieba-0-202、HanLP这个Java工具包功能很强大,但在特定任务上容易出现过拟合。比如在语音识别后的文本上表现就不是那么好,容易把很多词分为人名。目前为止至少我还没找到可弥补的方法。https://github.com/hankcs/Han

2015-10-29 10:54:42 879

原创 编码常见问题及解决方式

1、问题:UnicodeEncodeError: 'ascii' codec can't encode characters in position 方法:字符集的问题,在文件前加两句话reload(sys) sys.setdefaultencoding( "utf-8" )

2015-10-23 10:48:38 1293

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除