自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

alihonglong的专栏

一个初学者的成长

  • 博客(44)
  • 资源 (5)
  • 收藏
  • 关注

原创 python-汉字编码

note1, json.dumps:因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=Falseimport jsonprint json.dumps(‘中文’,ensure_ascii=False)note2, json.loads加载后的字符串为unicode格式note3 汉字长度unico...

2019-10-29 13:42:52 635

原创 常用工具包-哈工大语言技术平台(LTP)-本地安装-java接口(ubuntu,win7-64位)

目录第一部分 简介...1第二部分ubuntu系统...21 所有相关软件...22 ltp4库编译...22.1安装JDK并配置环境变量...22.2安装Ant.22.3安装cmake.32.4编译LTP.32.5编译LTP4j33 eclipse下测试...33.1功能简介...33.2详细代码...4

2016-10-14 17:12:35 5986 1

原创 常用工具包-nltk初步学习

目录一、软件安装...1二、相关实践理解...12.1分词、词性标注...22.2句法、语义分析...22.3加载语料库...22.4概率统计...32.4.1 FreqDist.32.5聚类器...42.5.1kmeans聚类...42.5.2gaac聚类...42.5.3混合高斯聚类...52.6分类器

2016-09-26 11:47:32 7552

原创 hive语句简单统计搜索日志

一、前言         初步学习了hive,以搜狗实验室的一部分搜索日志为数据集进行hiveQL语句操作练习。二、数据集介绍         语料官网:http://www.sogou.com/labs/resource/q.php         简介:搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。

2016-09-24 08:33:17 5404

原创 常用工具包-哈工大语言技术平台(LTP)-本地安装-python接口(ubuntu,win7-64)

目录一、前言...1二、Win7下通过命令行使用LTP.22.1下载相关软件...22.2文件夹放置...22.3通过python使用命令接口...22.3.1命令简介...22.3.2测试代码:...32.4参考资料...3三、Ubuntu下python编程接口使用LTP.43.1搭建开发环境...43.2功能测

2016-09-07 20:41:57 8255 4

原创 ubtuntu hadoop2.7.1编译

目录一、前言二、编译hadoop2.1操作系统2.2安装jdk2.3安装maven2.4安装openssh2.5安装依赖库2.6安装protoc2.7开始编译  一前言    官网上下载的预编译的hadoop安装包可能和自己的系统位数不一样(32位,64位),所以有时要下载源码来编译合乎自己系统需求的hadoop安装包。    查看hadoo

2016-08-30 16:37:49 616

原创 统计自然语言处理梳理五:应用层

目录一、机器翻译...1二、语音翻译...1三、文本分类...13.1基本概念...13.2文本表示...23.3特征选择...23.5分类算法...23.7评介指标...23.6情感分类...2四、信息检索与问答系统...34.1信息检索...34.2问答系统...3五、自动文摘与信息抽取...

2016-08-27 08:21:15 2677

原创 统计自然语言处理梳理四:篇章分析

进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》         篇章分析的最终目标是从整体上理解篇章,最重要的任务是分析篇章结构。篇章结构包括:语义结构,话题结构,指代结构等。一、基本理论         概念依存理论。         Beaugrandeand Dressler(1981)认为篇章有7个基本特征:衔接性,连续性,意图性,信息性,可接受性,情景

2016-08-27 08:16:25 4108

原创 统计自然语言处理梳理三:语义分析

进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》。一、概述         对于不同的语言单位,语言分析的任务各不相同:在词的层次上,语义分析的基本任务是进行词义消歧;在句子层面上,语义角色标注是所关心的问题;在文章层次上,指代消解、篇章语义分析是重点。二、词义消歧         词义消歧的基本方法:基于规则的分析方法;基于大规模语料的统计机器学习方法。

2016-08-27 08:14:50 6776

原创 统计自然语言处理梳理二:句法分析

进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》。一、概述         句法分析是自然语言处理技术中的关键技术之一,其基本任务是确定句子的句法结构或句子中词汇之间的依存关系。         句法分析分为句法结构分析和依存关系分析。         句法结构分析又称成分结构分析或短语结构分析,其又分为二种。以获取整个句子的句法结构为目的分析称为完全句法分析

2016-08-27 08:12:56 8830

原创 统计自然语言处理梳理一:分词、命名实体识别、词性标注

进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》。一、自动分词         词,词是最小的能够独立运用的语言单位。         自动分词问题由来。中文(还有日语、越南语、藏语等)的文本不像西方屈折语的文本,词与词之间没有空格之类的标注来显示指示词的边界,因此,自动分词成了文本处理的首要基础性工作。         汉语自动分词的基本问题。1,分词规范问题:

2016-08-27 08:09:36 14230

原创 最大熵模型学习

目录前言一、何为熵1.1基本概念1.2相关定义二、最大熵2.1抽象概念2.2最大熵模型的表示2.3最大熵模型求解 前言         在自然语言处理的很多任务中,都用到了最大熵模型。用过一些工具包后,打算学习下最大熵模型的一些基本原理。重要的一份资料是网络博文《最大熵模型的数学推导》(http://blog.csdn.net/v_july_v/arti

2016-08-27 07:59:57 1741

原创 SSH梳理

在配置hadoop集群时,涉及了ssh,在此梳理下。一,SSH是什么SSH(SecureShell)是一种加密的网络协议,基于客户-服务模式。使用该协议的数据在传输过程中将被加密,从而保证信息的安全。二,安装SSH基于Debian/ubuntu的安装:sudoapt-get install openssh-client(一般系统都安装了)sudoapt-get inst

2016-08-17 20:36:02 308

转载 hadoop完全分布式

注:本文为转载,来自:http://blog.csdn.net/ab198604/article/details/8250461 要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。说来简单,但是应该怎么做呢?不

2016-08-17 19:53:01 469

原创 隐马学习二(从词性标注角度理解隐马尔可夫)

将尝试从词性标注领域来理解隐马尔可夫模型。基本概念隐马尔可夫模型是一种统计模型,一种机器学习方法。它主要研究这个类型问题:有一组我们可以观察到的序列符号,它背后还隐藏着了一组序列符号,我们如何求那组序列符号,及有多大的概率出现我们观察到的序列符号。对应的是一个词诩标注的例子。一个句子经过分词后是一组词序列,这是我们可以观察到的,其实在词序列的背后还有一个词性序列。比如,一个词序列“

2016-08-08 17:08:27 1287

原创 hadoop学习中基础性问题

hadoop配置过中,一些问题梳理:1,nameNode启动不了;2,SecondaryNamenode启动不了;3,datanode启动后自动关闭;4,主机名带下划线

2016-07-22 16:15:50 397

原创 《深入理解Java虚拟机》笔记一

最近看了《深入理解Java虚拟机》,对java的了解多了些。提到java,脑子里的第一反应最起码不再是new class、加载包了。但更深的东西不敢说吸收了多少,同时也不是为了立志进行java虚拟机开发,只求多读几遍、逐步明智。《一、Java技术体系》1,传统意义的Java技术体系传统意义的Java技术体系包括:Java程序设计语言、各种Java虚拟机、Class文件格式、Ja

2015-11-18 16:25:07 524

原创 研究生期间知识体系规划

现在研二了,自然语言处理方向的。一直以来不清楚自己要进行怎样的知识体系,通过研一的学习和手头触及的一点事,慢慢理清了自己要进行的知识体系。这个知识体系有五个方面:专业基础方面,项目方面,论文方面,综合素质方面。专业基础专业基础第一点是java语言学习。传说中有些牛逼院校可能不是很注重编程学习学习,但结合我自身来看,好好学习一门语言很重要的。怎么进行java方面学习呢?第一个阶段,找一门ja

2015-10-12 08:32:07 1197 1

原创 HashMap和HashTable源码学习笔记

看了些源码部分后,感觉,这就是数据结构的东西!当时学习数据结构时怎么没有怀着好奇学习的心理。看了arraylist和vector后,就没有再细看HashMap和HashTable,只是就自己好奇关心的看了下:其数据结构是什么样的?查找和插入怎么进行的?然后网上查阅其区别并于代码中以验证。1,两者数据结构相同   HashMap和HashTable都是一自定义结构体的一维数组(Ent

2015-09-28 08:18:31 505

原创 Arraylist和Vector源码学习笔记

整体上这两个类都实现了List接口,继承AbstractList类。他们都是有序集合,即存储在这两个集合中的元素的位置都是有顺序的,相当于一种动态的数组,可以按位置索引号取出某个元素。在看的时候,发现些疑点,找找原由,同时也去网上搜下,学习了以下几个关于Arraylist和Vector的几个小点:1,同步性:Vector是线程安全的,也就是说是它的方法之间是线程同步的,而ArrayList

2015-09-25 20:39:22 424

原创 hadoop配置

目录hadoop配置...1一、所用软件环境:...1二、安装步骤:...11,安装操作系统...12,创建hadoop用户组和用户...23,安装jdk.24,修改机器名...25,安装配置ssh.36,安装配置hadoop.37运行hadoop以验证配置:4运行WordCount例子...41,创建本地测试

2015-09-08 11:19:00 405

原创 Hadoop基本命令

目录.21,启动Hadoop.22,关闭Hadoop.23,打印版本信息。...24、hadoop脚本可用于调试任何类...2,文件操作...31、格式化一个新的分布式文件系统:...32、查看指定目录下内容...33、查看指定目录下的所有文件(包括子目录下的文件)34、打开某个已存在文件...35、将本地文件存储至h

2015-09-07 16:33:47 1067

转载 统计算法学习梳理(二)

研一零零散散用了一些统计算法,在此简单梳理下,力求用电梯演讲法则去阐述每种算法思想。但自己理解不深,还需要进一步努力。更重要的是复用了前人的智慧。  统计学习概述  关于统计学习,首先推荐李航老师著作的一本书《统计学习方法》。在此引用里边一句话来定义统计学习:统计学习(statistical learning)是关于计算机基于数据构建概率模型并运用模型对数据进行预测与分析的一门学科。从

2015-08-20 16:33:57 951

原创 统计算法学习梳理(一)

研一零零散散用了一些统计算法,在此简单梳理下,力求用电梯演讲法则去阐述每种算法模型(这是初哀,最后,呵呵了)。但自己理解不深,还需要进一步努力。更重要的是复用了他人的智慧。

2015-08-20 10:03:52 7212

原创 隐马学习一

这学期起初时学习隐马知识并作词性标注练习,到年底了,简单整理总结隐马尔可夫模型是什么一下,只求还能记住点东西。隐马尔可夫模型是什么              隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析。

2015-02-06 16:48:41 996

原创 腾讯出此策,阿里就怕了

直入主题,要使阿里害怕,腾讯就要使出杀手锏:社交账号体系。这是个人的生活感受。  对象日常买衣服,基本都是和她的室友一块去,女人的天性。在网上买呢,两人也经常发图片分享讨论。这个过程在人们日常生活是很常见,而这里也就涉及到AT。在淘宝买东西,在扣扣交流。腾讯为什么不利用这一点深深的打通购物和社交的账号体系? 为什么打通?网络也就是生活,打通了账号,购物可以很好地分享信息。我在逛空间里,一看

2014-11-12 10:04:31 649

原创 mxc_vpu_test的获取

最近要做解码方面的工作,首先呢是学习官方的一个测试程序和文档。得到这个测试程序一周前了,具体细节都忘了,在此整理一下思路,即使不从事嵌入式这块,别过一段时间什么都没有留下。                            一、小概念理解  交叉编译。交叉编译环境就是提供一个环境,当在自己主机上写好程序后可以利用在这个环境中生成目标板子上可执行的程序。我的理解就是由于条件限制目标板只接

2014-05-17 12:15:46 4496

原创 完成第一次工作的第一个任务

进公司两个月了,第一次完成了一个任务。入职培训完了做了个测试程序,一个系统搭建还没有调试好,这次的应用算是第一个实际点并完成了的任务。   最终完成成果只有一个脚本和makefile文件,额,而自己在这用了两周的时间。中间肯定走了很多弯路,长些经验教训以提高自己快速适应能力                    公司应用框架   这次很大部分时间是来学习公司自己的一个框架,恩“不懂就要

2014-04-30 18:06:08 973

原创 不懂就要问

生活是老师,工作也是老师!

2014-04-25 09:23:30 1169

原创 之:内核编译(众多前人的结晶)

引导grub学习了,然后开始进行内核编译这一块了,目前打算先升级一次内核升级。1,准备材料(验证进行)要升级的内核版本linux-3.10.35.tar.xz,这个是从官网下载的,慢慢的才清楚,这个是内核源码文件,73M.之后编译好的有2M左右的内核,当然通过筛选,可能更小。这一步没什么,只是对内核学习向前了一步。恩说android内核是linux内核,我在想手机内存那么小,怎么和电脑

2014-04-23 17:20:29 707

原创 之:GRUB总结

最近要自己运行一个简洁系统,恩grub,内核,根文件系统(busybox),c库来做成一个系统跑起来。这些都是很多前人经验,而我也只是做个流水账式思路整理。一,计算机启动过程从开机按钮到完全开机,可以理解为有三个阶段:1,bios启动阶段,这个是硬件厂商所设置,检查设备信息,这一步也可更改一些系统信息;2,系统启动引导管理器,假如机子上安装有多个系统,则需要一个引导管理器帮助用户选择,即使

2014-04-23 16:25:39 640

原创 串口学习

这周在公司学习了点串口知识,做了个小程序,学得还是很浅的,只是流水帐式的总结一下理一理思路。          基本概念的理解,     什么是串口?意思就是一位一位的传输数据。和其对应的就是并行,权且这样理解;通过串口与设备进行通讯,串口将两个设备连接后就可以通讯了;通讯协议,两个设备之间互相传递的是0、1的信息,怎样理解收到的一串数据怎需要双方订立一套机制,即协议。     

2014-04-01 15:06:46 1069

原创 入职三周记

好久没有写什么了,大四上半年忙着考研的事情,下半年一来就瞅工作的事情。始终感觉总结是个不可少的一件事,以后要定期总结出来,写出来,也要渐渐提高自己的专业水平。           到今天进入三周了,感觉学到了很多东西,嗯,也给自己在工作方面定了一下位。在此之前呢,感谢老师在大学期间对我在专业方面的指导让我在找工作的时候有点根基,感谢此时公司的接纳,感谢同事们的照顾指导。真心的,想想,只要用心,

2014-04-01 14:38:09 1267

原创 Android的入门学习一

初步进行安卓开发的学习,更多的借鉴和实践,外有自己的幼稚看法

2014-01-25 22:39:08 1235 1

原创 小算法练习,Sudoku(POJ2676数字游戏

Sudoku(POJ2676)是一种简单的数字游戏,一个9×9的正方形表格被分成9个3×3的小正方形表格,在表格的某些单元格中,已填有数字1至9中的一个。游戏的任务是,在表格每一个空白单元格里填入数字1至9中的一个,使得9×9正方形表格的每一行和每一列以及9个3×3小正方形表格中,数字1至9都出现且仅出现一次。你的任务是,编程求出给定Sudoku游戏的一种填法。int array[9][9

2013-04-03 18:17:09 1134

原创 问题总结error in your SQL syntax

这几天在做JSP最后大作业时遇到一个小编程问题,值得反思很多。              问题:MySql数据库操作             测试执行时问题报这样的错:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: You have an error in your SQL syntax; check the m

2012-12-12 19:35:46 655

转载 马云

要记住,领导永远不要跟下属比技能,下面的人肯定比你强;如果下面的人不比你强,说明你请错人了。但你要跟他比眼光,要比他看得远;读万卷书不如行万里路,眼光的高度要在领导的水平线上。第二,要比胸怀。男人的胸怀是冤枉撑大的。你对你的部下、员工、团队要包容;合作不是一天两天的事,如果你是对的,永远有机会去证明。第三,要比实力。你抗击失败的能力比他强。一块砖头掉下来,别人挨一下就倒了;你挨了一下,一点反应都没

2012-12-11 23:08:02 501

原创 窥探

于CSDN中看了一些博文、报道,结合现实生活,记一些自己的想法。IT里,应该有四大模块,或者就业从事方向的四大技术模块:移动手机、电脑、服务器、企业所需。         移动手机。随着人们生活变化,对手机的各方面需求越来越多样化,特别是网络方面的需求。安卓系统的出现,可以是对人们生活影响很大,有颠覆作用。电脑的很多功能可以是手机的未来。所以手机方面肯定会吸引全世界更多的资源:人力,物力,财力

2012-12-10 22:44:43 504 1

原创 图像学习

今天开始学习图像方面的知识,确切的说是始在vs10环境下去做简单的高试。感觉到一点,复制、抄代码也很痛苦!    嗯上午练习的就是打开一副位图,涉及的东西不多,但是得一个个把代码从书上打上去。这个工作没有上点技术含量,但是要我自己去写,一点都不知道,一个函数也盲打不下来。现在感觉记住了那些关键函数了。   抄代码,不抄吧,不会。抄吧感觉太没有水平,但是现在水平,只能这样了。    看代

2012-12-02 21:51:20 471 1

原创 初学者探头

最近看了一周的有图像处理的vc书籍,才感觉到算法逻辑的重要。     现在大三,可以说没有做任何面目,充其量是一些小案例而已。但是想想自己学习所用的编程环境、机制,都有各自的巧。首先承认,具体语言一般,用的好vc,myeclipse等任何一种都也是不错的,能够解决一些问题。而一些编程非逻辑的问题我还是没有独自解决的能力,但是这周初学了一点图像处理,真感觉逻辑处理才是王道,是走的更远的必备素质。

2012-12-01 23:07:09 418

数据挖掘文本分类语料库(中文)-李荣陆老师的一部分资料

数据挖掘文本分类语料库(中文)-李荣陆老师的一部分资料

2016-02-21

jsp学生选课学习小系统

这是本学期学jsp时,做的一个小例子,功能很简,只是学习而用

2012-12-13

Visual C++ 2010 CLR

这是本Visual C++ 2010 CLR电子书,以前下载看的,感觉很好,上传于此,同大家分享

2012-09-29

聊天小程序

我是初学者,简单学习做两人聊天发文件的程序,这是学习别人而改做的

2012-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除