- 博客(5)
- 收藏
- 关注
原创 Linux离线安装pyhive使用 python连接hive
Linux离线安装pyhive使用 python连接hivepython依赖包saslthriftthrift-saslPyHive到https://pypi.org/project/下载对应的包,使用命令 tar zvxf 解压,whl后缀的可以直接安装,安装sasl包时会遇到问题sasl.h文件找不到,需要安装Linux系统依赖包linux依赖包gcc-c++ (这个一般系统已经安装好了)cyrus-saslcyrus-sasl-develpython-devel可以到h
2021-04-29 12:10:26 1207
原创 windows下添加jupyter系统服务,后台启动服务,局域网下多机使用jupyter lab
文章目录配置jupyter安装window服务使用jupyter lab是一个很好的开发工具,最近在公司内网需要多人使用一台机子,想着用jupyter建立一个服务,局域网下多机访问。配置jupyter生成配置文件(jupyter lab -generate-config)生成的文件一般在C:\Users\xxxx.jupyter目录下生成password用conda选择自己的环境,默认为base环境,然后用ipython生成hash密码:In [1]: from notebook.
2020-05-21 12:24:38 2445 4
原创 一知半解 --词向量(Word2Vec初步解读及代码实现)
目录词向量的来源word2vec简介词向量实战训练结果测试结束语参考文献词向量的来源NLP相关任务中最常见的第一步是创建一个词表库并把每个词顺序编号,这就是最初的one-hot模型,这种方法把每个词顺序编号,每个词就是一个很长的向量,向量的维度等于词表的大小,只有对应位置上的数字为1,其他都为0,例如一个词表[’ 我’,‘是’,‘谁’],那么这个词表的大小是3,每个词对应的向量为:我:[1,0,0]是:[0,1,0]谁:[0,0,1]而实际常用的模型是词袋模型,该模型仍以词语为基本处理单元
2020-05-12 23:09:05 2335
原创 python3多进程之间共享变量
python3多进程之间共享变量前言代码结束语前言前一篇博文尝试爬取百度百科词条作为语料,起初采用的是单进程多线程,但是速度很一般,根据爬虫的特点,属于IO密集型任务,用多线程肯定能提速,但并不是*n倍数的关系,多线程是利用一个线程阻塞的空闲让另一个线程来利用,但是python的特点,不会将线程映射到多个cpu上运行,那么在对网页数据的处理是需要消耗cpu资源的,如果利用多核cpu的优势,肯定...
2020-04-26 23:26:45 591
原创 爬取百度百科语料
python3爬取百度百科语料前言思路代码一些细节结果结束语前言迫于毕业压力,开始自学NLP(在一个研究院读研,早早开始实习,然而实习公司部门没有能支撑写论文的项目,想想还是挺坑的????♂️),看了一些资料,决定先开始从词向量入门吧,然而没有好的中文语料,虽然维基百科提供免费的中文语料,但是我看了一下,还要繁体转简体,巴拉巴拉的,并且国内用维基百科毕竟少数,所以估计语料的质量也不咋地,想着我们日...
2020-04-24 22:49:19 1102
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人