自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 n-gram 稀疏数据存储 之 MySQL索引优化

如果发现查询需要扫描大量的数据但只返回少数的行,那么通常可以尝试下面的技巧去优化它:使用索引覆盖扫描。改变库表结构。例如使用单独的汇总表。重写这个复杂的查询。让mysql优化器能够以更优化的方式执行这个查询。索引分为聚簇索引和非聚簇索引两种,聚簇索引是按照数据存放的物理位置为顺序的,而非聚簇索引就不一样了;聚簇索引能提高多行检索的速度,而非聚簇索引对于单行的检索很快。以下为参...

2019-07-01 20:35:44 305

转载 n-gram 稀疏数据存储 之 MySQL索引介绍

转载:Mysql——InnoDB存储引擎和索引介绍索引优化是对查询性能优化的最有效手段InnoDB 存储引擎在绝大多数情况下使用 B+ 树建立索引,这是关系型数据库中查找最为常用和有效的索引,但是 B+ 树索引并不能找到一个给定键对应的具体值,它只能找到数据行对应的页。数据库中的 B+ 树索引可以分为聚集索引(clustered index)和辅助索引(secondary index...

2019-06-26 09:30:08 306

原创 NTLK stanford Segment中文分词出错

解决出现类似报错的情况,是因为少了Java class的参数,这是新版本中为注明的修改。from nltk.tokenize import StanfordSegmentersegmenter = StanfordSegmenter( path_to_sihan_corpora_dict="E:/NLP/NLP_code/Installation/base/stanford-segm...

2019-02-26 22:28:56 798

转载 Segmentation和Tokenization的区别

在某乎上看到的,感觉有一定道理。segmentation是将一个字符串切分成若干可以进一步处理的单元,tokenization是将一个字符串转换成若干单元,因此存在合并的情况。比如人名lee lei应该看做一个词,这一步显然不是segmentation而是tokenization。详见:https://www.zhihu.com/question/304960383...

2019-02-25 22:05:14 2164

原创 使用python和stanford corenlp,进行中文处理

后来发现 Stanfordnlp 只支持繁体中文,对于中国大陆的简体中文尚未支持。于是决定使用更为完善的Stanford CoreNLP,由于是其本身是Java版本,但提供了Sever方式进行交互,所以选择使用python进行调用。具体步骤可参考:https://blog.csdn.net/guolindonggld/article/details/72795022...

2019-02-25 19:08:10 1777

转载 RuntimeError: PyTorch does not currently provide packages for PyPI解决方法

第一次安装stanfordnlp工具时,遇到很多困难。先后安装了anaconda,pytorch等等,最后遇到的是如下的况状:RuntimeError: PyTorch does not currently provide packages for PyPICommand "python setup.py egg_info" failed with error code 1 in C:...

2019-02-24 20:15:20 733

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除