自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无限大地NLP_空木的专栏

自然语言处理、内容推荐、python

  • 博客(29)
  • 资源 (13)
  • 收藏
  • 关注

转载 Eclipse快捷键大全(转载)

Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对

2014-04-30 11:11:07 742

原创 java工具---将txt文件转成xml格式的文件

通过java,将txt文档的内容转化成xml格式的内容,并且xml格式比较标准,可以通过调用相关的jar包来实现

2014-04-29 20:52:55 6155

转载 驾照----有效期mark

一、驾照的有效期是多久驾照有效期分为六年、十年和长期。(一)机动车驾驶人在机动车驾驶证的六年有效期内,每个记分周期均未记满12分的,换发十年有效期的机动车驾驶证;(二)在机动车驾驶证的十年有效期内,每个记分周期均未记满12分的,换发长期有效的机动车驾驶证。机动车驾驶人应当于机动车驾驶证有效期满前九十日内,向机动车驾驶证核发地车辆管理所申请换证。二、驾照到期怎么办驾照到期,要

2014-04-28 16:25:31 1105

转载 Java动态数组的用法详解

Java动态数组是一种可以任意伸缩数组长度的对象,在Java中比较常用的是ArrayList,ArrayList是javaAPI中自带的java.util.ArrayList。下面介绍一下ArrayList作为Java动态数组的用法。  1.语法:add()是添加一个新的元素,remove()删除一个元素,size()获得ArrayList的长度。ArrayList的下标是从0开始。

2014-04-27 21:34:03 17750 1

转载 java正则表达式---最短匹配

正则表达式正则表达贪婪与懒惰当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。考虑这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要

2014-04-26 10:37:17 4728 1

转载 java输入输出---读取文件名

import java.io.FileNotFoundException;import java.io.IOException;import java.io.File;public class ReadFile { public ReadFile() { } /** * 读取某个文件夹下的所有文件 */

2014-04-26 09:18:43 1046

原创 求职面试__无领导小组讨论__沉船逃生排序问题

群面,无领导小组讨论的模拟.....

2014-04-22 15:47:07 10475

转载 python os.path模块学习

鲲鹏Web数据抓取 - 专业Web数据采集服务提供者 官方文档:http://docs.python.org/library/os.path.htmlos.path.abspath(path)返回path规范化的绝对路径。>>> os.path.abspath('test.csv')'C:\\Python25\\test.csv'>>> os

2014-04-21 14:39:44 698

原创 python输入输出---read(),readline()和readlines()

我们谈到“文本处理”时,我们通常是指处理的内容。Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法: .read()、.readline() 和 .readlines()。每种方法可以接受一个变量以限制每次读取的数据量,但它们通常不使用变量。 .read() 每次读取整个文件,它通常用于将文件内容放到一个字符串变量中。然而 .read() 生成文件内容最直

2014-04-21 14:03:22 2934

转载 python读取文本文档处理不可见字符

某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:# coding=gbkimport codecsdata = open("Test.txt").read()if data[:3] ==

2014-04-21 12:09:48 8169

原创 java开发API文档

文档下载地址:http://www.oracle.com/technetwork/java/javase/documentation/java-se-7-doc-download-435117.html

2014-04-20 23:06:20 1186

转载 java转义字符

转义字符是以'\'开头的字符序列,可以理解为前导的字符\改变了紧接其后的那个字符的原意,如:'\n','\t','\0'.......'\'是在转义符号,有特殊含义,所以在上面的代码中路径中用单杠,JVM会报错.?FileInputStream readFile =new FileInputStream("D:/Java/输入输出流/ja

2014-04-20 22:40:58 738

原创 python文档字符串查找应用---find()

功能:用python找出文档中某字符串出现的起始位置,结束位置。

2014-04-20 22:39:26 1461

原创 java学习讲义(三) Java基本数据类型和运算符

讲义(三) Java基本数据类型和运算符(回顾上回讲的,练习完成情况,哪些不了解,有哪些疑惑?提出来)三、数据类型和运算符1.       注释快捷键;怎么注释,单多行;重要性,记录,调试;文档注释(了解);2.       标识符、关键字; { }  [ ]  .    ( );字符、数字、下划线、美元符号、数字不开头;不能关键字、保留字,可包

2014-04-20 21:48:57 835

原创 java读取文件的方法

java读取txt文件内容。可以作如下理解:首先获得一个文件句柄。File file = new File(); file即为文件句柄。两人之间连通电话网络了。接下来可以开始打电话了。通过这条线路读取甲方的信息:new FileInputStream(file) 目前这个信息已经读进来内存当中了。接下来需要解读成乙方可以理解的东西既然你使用了FileInputStrea

2014-04-20 17:47:22 934

转载 火影忍者插曲(不是主题曲或者片尾曲)

火影忍者 疾风传OST2 参考目录:  (NARUTO-ナルト- 疾风伝 オリジナル・サウンドトラック)  1. 升竜  2. 临界 (鸣人VS歌方--初次对战时候)  3. 撃破  4. 彩霞  (自来也初遇弥彦、长门、小南时候)  5. 预言者  6. 飞段  7. 角都  8. 红炎  (迪达拉 C4迦楼罗 )  9. 乱髪  10. 埋葬

2014-04-20 13:20:28 2926

转载 MAC---安装Mac OS X版Eclipse

2.5.2 安装Mac OS X版Eclipse 2.5.2  安装Mac OS X版Eclipse《Google Android程序设计指南》第2章Android SDK软件开发组件,本章的主要内容有Android SDK软件开发组件;安装Android SDK最低系统硬件需求;安装Windows版本Android SDK;Linux平台安装Android SDK;Mac OS X平

2014-04-19 10:12:44 2079

转载 MAC 下的Java JDK

基本关系MAC OS X 集成了一个配置完整,随时可用的java运行时和开发环境。J2SE的完整版本以及JDK,JVM都已经预先安装在MAC OS X中,避免了JDK的下载,安装,配置的环节。集成的在MAC OS X下的Java版本与其它Sun(Oracle)发布的java版本是类似的,唯一的不同是MAC OS X下的Java是由苹果发行并紧紧绑定到进入到MAC OS X系

2014-04-19 09:53:51 1503

转载 mac系统下配置Eclipse Java/C++ 开发环境

步骤如下: 1. Mac OS X 本身已经安装好 jdk,所以搭建 Java Eclipse环境很简单,只需要下载适合系统的 Eclipse即可,首先查看系统是几位的(点击 Mac屏幕左上角的苹果 Logo,选择“关于本机”,在弹出的方形窗口里点击“更多信息…”按钮,再点击"系统报告…"按钮,在“软件”一栏就能看到目前你的苹果电脑 Mac OS X系统是否开启 64 位运算了。)

2014-04-19 09:05:43 7363

转载 MAC xcode开发快捷键

Xcode使用入门:http://blog.163.com/lyzaily@126/blog/static/42438837200972903444447/XCoder中的快捷键:Command + [   ]   :   整行代码向左或向右缩进在Xcode中写代码,Xcode编辑器常常给出提示,如果给出的代码提示符合我们的要求,我们就可以按tab键选择所提示的代码 。如果提示代码不符

2014-04-18 17:07:04 851

原创 Python正则表达式---全部能匹配的子串迭代器finditer及findall及以中文匹配部分中文

匹配某个中文到某个中文之间的词findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]): 搜索string,以列表形式返回全部能匹配的子串。

2014-04-15 19:55:07 3616

原创 python文件读写操作---文件路径含有中文打开错误

python文件读写操作之文件路径含有中文,打开错误用Python读入文件时,若是路径包含中文,直接打开会出现错误处理:使用unicode函数,对路径进行编码,然后再打开,便可以。#coding:utf-8#对路径进行编码,不然,文件路径含有中文的话,会出现错误filepath=unicode(r'G:\baidubaike-cleared\白雪\白雪:画家.txt','utf

2014-04-14 10:16:50 4727

转载 文献综述注意事项

在撰写文献综述时应注意以下几个问题:  ⒈搜集文献应尽量全。掌握全面、大量的文献资料是写好综述的前提,否则,随便搜集一点资料就动手撰写是不可能写出好多综述的,甚至写出的文章根本不成为综述。  ⒉注意引用文献的代表性、可靠性和科学性。在搜集到的文献中可能出现观点雷同,有的文献在可靠性及科学性方面存在着差异,因此在引用文献时应注意选用代表性、可靠性和科学性较好的文献。  ⒊引用

2014-04-09 19:22:01 1348

转载 论文里的摘要和引言的区别

简单的说,摘要是文章的主要内容,引言是引出话题的前语。论文摘要是全文的精华,是对一项科学研究工作或技术实践的总结,对研究目的、方法和研究结果的概括。   摘要置于主体部分之前,目的是让读者首先了解一下论文的内容,以便决定是否阅读全文。一般来说,这种摘要在全文完成之后写。字数限制在100~150字之间。内容包括研究目的、研究方法、研究结果和主要结论。也就是说,摘要必须回答“研究什么”、“

2014-04-09 18:40:25 4826

原创 在eclipse导入Java 的jar包的方法

先把jar包放在项目的目录下,刷新项目,通过添加jar包,是使用相对地址的,这样把项目复制到其它电脑也可以用第二种方法是导入外部的jar包,是绝对地址,如果项目要复制到其它电脑又要重新导入

2014-04-07 09:24:33 845

原创 经典书籍----《高效能人士的七项习惯》笔记

经典书籍《高效能人士的七个习惯》笔记

2014-04-05 09:39:28 1514

原创 Python实现各类数据结构和算法---计数排序

python实现计数排序

2014-04-03 23:24:47 1369

转载 MIT人工智能实验室:如何做研究

来自MIT人工智能实验室:如何做研究作者:人工智能实验室全体研究生编辑:David Chapman版本:1.3时间:1988年9月译者:柳泉波 北京师范大学信息学院2000级博士生摘要 本文的主旨是解释如何做研究。我们提供的这些建议,对做研究本身(阅读、写作和程序设计),理解研究过程以及开始热爱研究(方法论、选题、选导师和情感因素),都是极具价值的。Copy

2014-04-02 22:09:59 1122

原创 《python自然语言处理》笔记---chap3加工原料文本

chap3中关于,NLP中的关键概念,包括分词和词干提取。字符串、文件、正则表达式、去除HTML标签以下所有程序,默认导入包import nltk,re,pprint #即,nltk包,正则表达式re包,输出pprint包3.1 从网络和硬盘访问文本电子书http://www.gutenberg.org/files/2554/2554.txt,古腾堡项目编号2554的文

2014-04-02 16:50:04 5985 1

nlp停用词表

常用停用词词表 import pickle stopwords = pickle.load(open('stopWords.pkl','r'))

2019-03-10

conll2000的数据

http://www.chokkan.org/software/crfsuite/tutorial.html教程里 wget http://www.cnts.ua.ac.be/conll2000/chunking/train.txt.gz,wget不下来的时候,使用这份数据

2018-08-10

genia tagger

GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -

2015-04-23

ICTPOS汉语词性标记集.doc

ICTPOS汉语词性标记集.doc定义了:计算所汉语词性标记集,对分词工具分词后的词性详细分类定义

2014-10-26

txt_to_xml.jar包

txt文件转成xml格式的文件,不是直接改后缀那么简单,想要得到标准的xml格式的文件,需要使用一些工具。

2014-04-29

机器学习实践指南

群里的一个朋友写的书,关于机器学习方面的,大家可以看看。

2014-04-22

自然语言标注

自然语言处理,如何标注自然语言的有些方法,是一本好书!

2014-04-22

PYTHON自然语言处理中文翻译 NLTK

中文版的《python自然语言处理》,很少,做自然语言处理这块的,可以参考参考。

2014-04-22

Deep Learning 实战之 word2vec

关于word2vec的介绍,并且介绍了一些模型,像是统计语言模型,Log-Linear模型,以及介绍了分布式实现word2vec。很好的参考学习word2vec的资料

2014-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除