- 博客(6)
- 收藏
- 关注
转载 n-gram 稀疏数据存储 之 MySQL索引优化
如果发现查询需要扫描大量的数据但只返回少数的行,那么通常可以尝试下面的技巧去优化它:使用索引覆盖扫描。改变库表结构。例如使用单独的汇总表。重写这个复杂的查询。让mysql优化器能够以更优化的方式执行这个查询。索引分为聚簇索引和非聚簇索引两种,聚簇索引是按照数据存放的物理位置为顺序的,而非聚簇索引就不一样了;聚簇索引能提高多行检索的速度,而非聚簇索引对于单行的检索很快。以下为参...
2019-07-01 20:35:44 305
转载 n-gram 稀疏数据存储 之 MySQL索引介绍
转载:Mysql——InnoDB存储引擎和索引介绍索引优化是对查询性能优化的最有效手段InnoDB 存储引擎在绝大多数情况下使用 B+ 树建立索引,这是关系型数据库中查找最为常用和有效的索引,但是 B+ 树索引并不能找到一个给定键对应的具体值,它只能找到数据行对应的页。数据库中的 B+ 树索引可以分为聚集索引(clustered index)和辅助索引(secondary index...
2019-06-26 09:30:08 306
原创 NTLK stanford Segment中文分词出错
解决出现类似报错的情况,是因为少了Java class的参数,这是新版本中为注明的修改。from nltk.tokenize import StanfordSegmentersegmenter = StanfordSegmenter( path_to_sihan_corpora_dict="E:/NLP/NLP_code/Installation/base/stanford-segm...
2019-02-26 22:28:56 798
转载 Segmentation和Tokenization的区别
在某乎上看到的,感觉有一定道理。segmentation是将一个字符串切分成若干可以进一步处理的单元,tokenization是将一个字符串转换成若干单元,因此存在合并的情况。比如人名lee lei应该看做一个词,这一步显然不是segmentation而是tokenization。详见:https://www.zhihu.com/question/304960383...
2019-02-25 22:05:14 2164
原创 使用python和stanford corenlp,进行中文处理
后来发现 Stanfordnlp 只支持繁体中文,对于中国大陆的简体中文尚未支持。于是决定使用更为完善的Stanford CoreNLP,由于是其本身是Java版本,但提供了Sever方式进行交互,所以选择使用python进行调用。具体步骤可参考:https://blog.csdn.net/guolindonggld/article/details/72795022...
2019-02-25 19:08:10 1777
转载 RuntimeError: PyTorch does not currently provide packages for PyPI解决方法
第一次安装stanfordnlp工具时,遇到很多困难。先后安装了anaconda,pytorch等等,最后遇到的是如下的况状:RuntimeError: PyTorch does not currently provide packages for PyPICommand "python setup.py egg_info" failed with error code 1 in C:...
2019-02-24 20:15:20 733
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人