自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 自然语言处理-搭建文本分类器

一个完整的文本分类器主要由两个阶段,:一是将文本向量化,将一个字符串转化成向量形式;二是将向量喂到分类器,包括SVM, CNN,LSTM等等。这边做的项目其实阶段用的是 tf-idf 来进行文本向量化,使用卡方校验(chi-square)来降低向量维度,使用liblinear(采用线性核的svm) 来进行分类。而这里所述的文本分类器,使用lsi (latent semantic analysis,

2017-10-27 17:04:33 1213

转载 自然语言处理-中文分词方法总结

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。前人做的工作,已注明出处,我觉得相对很完整。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。竹间

2017-10-27 16:21:24 5413

原创 Mysql使用心得(2)

mysql中针对不同的数据选择相应的存储引擎mysql中也会针对不同的数据处理选择相应的存储的引擎mysql中也会针对不同的数据处理选择相应的存储的引擎mysql中一些授权(grant)等的一般是mysql中user表中进行mysql中授权问题,可以很细化,对用户可以赋予相应的你想要他拥有的权限mysql中常见的引擎有innoDB,CSV, myISAM…mysql中对数据的分布式的存储访问,同样的

2017-10-26 15:06:27 371

翻译 MySql的使用心得

最近用了一段时间的Mysql,再次谈谈个人的心得。1-在不同的数据库之间进行数据的同步,实现如Oracle Copy命令的功能。mysqldump -h db1host -uu1 -pp1 -P3306 db1name tabname –where “…” | mysql -h db2host -uu2 -pp2 -P3307 db2name mysqldump 和mysql 搭配使用 非常方便

2017-10-26 15:04:50 464

原创 自然语言处理-简介

写这个系列的原因是为了介绍下NLP在工业界的应用,顺便总结下工作。先做个简单介绍。Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between

2017-10-19 15:39:31 1052

原创 常用的Python os模块

模块的使用是Python 编程中比较重要的一环。os顾名思义是Operation System的意思。os模块包含普遍的操作系统功能,与具体的平台无关。以下列举常用的命令os.name——判断现在正在实用的平台,Windows 返回 ‘nt’; Linux 返回’posix’os.getcwd()——得到当前工作的目录。os.listdir()——指定所有目录下所有的文件和目录名。例: os

2017-10-17 19:29:59 399

转载 MySQL基本操作

环境:windows,MySQL Server 5.5,Navicat forMySQLMysql常用sql语句SQL分类:DDL—数据定义语言(CREATE,ALTER,DROP,DECLARE)DML—数据操纵语言(SELECT,DELETE,UPDATE,INSERT)DCL—数据控制语言(GRANT,REVOKE,COMMIT,ROLLBACK)首先介绍基础语句:2.1创建数据库CREA

2017-10-12 15:47:58 504

转载 Python模块学习:logging 日志记录

Python的logging模块提供了记录程序运行情况的日志功能,类似于Apache的log4j 许多应用程序中都会有日志模块,用于记录系统在运行过程中的一些关键信息,以便于对系统的运行状况进行跟踪。在.NET平台中,有非常著名的第三方开源日志组件log4net,c++中,有人们熟悉的log4cpp,而在python中,我们不需要第三方的日志组件,因为它已经为我们提供了简单易用、且功能强大的日志模

2017-10-12 15:36:35 297

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除