- 博客(8)
- 资源 (12)
- 收藏
- 关注
转载 python 结巴分词(转)
python结巴(jieba)分词一、特点1、支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。 (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2、支持繁体分词3、支持自定义词典二、实现结巴分词的实现原理主要有一下三...
2018-12-25 10:18:51 513
转载 hive表insert,update,delete
https://blog.csdn.net/wzy0623/article/details/51483674
2018-12-22 18:01:02 563
转载 多进程和多线程
对比维度 多进程 多线程 总结 数据共享、同步 数据共享复杂,需要用IPC;数据是分开的,同步简单 因为共享进程数据,数据共享简单,但也是因为这个原因导致同步复杂 各有优势 内存、CPU 占用内存多...
2018-12-22 11:49:34 190
转载 hbase rowkey设置
从读的方面考虑: family越多,那么获取每一个cell数据的优势越明显,因为io和网络都减少了。 如果只有一个family,那么每一次读都会读取当前rowkey的所有数据,网络和io上会有一些损失。 当然如果要获取的是固定的几列数据,那么把这几列写到一个family中比分别设置family要更好,因为只需一次请求就能拿回所有数据。 从写的角度考虑: 首先,内存方面来说,对...
2018-12-19 15:29:40 872
转载 scala中sorted,sortby,sortwith的用法(转)
scala中sorted,sortWith,sortBy用法详解2017年07月23日 23:07:51 bitcarmanlee 阅读数:9249版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bitcarmanlee/article/details/75949268scala的集合中提供了三种排序的方式:sorted,sortWit...
2018-12-17 00:15:41 1722
转载 SPARK CONF,SPARK CONTEXT和SPARK SESSION的区别
https://www.cnblogs.com/Forever-Road/p/7351245.html
2018-12-16 23:30:38 950
Tensorflow学习:Python虚拟环境
2017-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人