自然语言处理
时代在召唤r
时代在召唤r
展开
-
win7 安装fasttext
1、pip升级到最新版本2、安装wheel文件https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext3、安装fasttext4、使用import fastText.FastText as ffclassifier = ff.train_supervised('data/t_cnews.train.txt'...原创 2019-04-12 19:50:37 · 277 阅读 · 6 评论 -
用scikit-learn学习DBSCAN聚类
在DBSCAN密度聚类算法中,我们对DBSCAN聚类算法的原理做了总结,本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结,重点讲述参数的意义和需要调参的参数。1. scikit-learn中的DBSCAN类 在scikit-learn中,DBSCAN算法类为sklearn.cluster.DBSCAN。要熟练的掌握用DBSCAN类来聚类,除了对DBSCAN本身的...转载 2019-03-13 09:50:25 · 429 阅读 · 0 评论 -
基于Text-CNN模型的中文文本分类实战
转自https://cloud.tencent.com/developer/article/1335257Text-CNN1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结。本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于Text-CNN模型在搜狗新闻数据集上二分类的Demo。文本分类是自...转载 2019-03-21 11:06:17 · 8307 阅读 · 0 评论 -
结巴分词具体使用
-> 详情戳 https://github.com/fxsjy/jieba1 分词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比...原创 2018-12-26 10:28:05 · 1148 阅读 · 0 评论 -
word2vec前世今生
word2vec前世今生 https://www.cnblogs.com/iloveai/p/word2vec.html自己动手写word2vec https://blog.csdn.net/u014595019/article/details/51943428word2vec中的数学原理 https://blog.csdn.net/itplus/article/deta...翻译 2018-11-23 12:00:31 · 272 阅读 · 0 评论 -
pyltp(哈工大语言云) 词性说明 句法分析标注关系
原创 2018-11-21 10:34:35 · 1873 阅读 · 0 评论 -
HanLP python安装(windows)
为方便安装各种包,下载Anaconda3conda install -c conda-forge jpype1pip install pyhanlpHanLP主项目采用Java开发,所以需要Java运行环境,请安装JDK。 下载链接官网链接 官网 ...原创 2018-11-15 19:54:26 · 1663 阅读 · 0 评论 -
python3.6 安装pyltp
当时安装pyltp一直报错,缺少balabala... 安装了都没有什么暖用 so成功后安利一下1、安装wheel 下面两个文件针对不同的python版本下载一个即可pyltp-0.2.1-cp35-cp35m-win_amd64.whlpyltp-0.2.1-cp36-cp36m-win_amd64.whlhttps://download.csdn.net/download...原创 2018-06-05 20:12:53 · 11042 阅读 · 24 评论 -
pyltp RuntimeError: incompatible native format - size of long
版本 3.4.0 windows 需使用 pisrl_win.model下载链接: http://ltp.ai/download.htmlroles = labeller.label(words, postags, arcs)for role in roles: print([role.index, "".join(["%s:(%d,%d)" % (arg.name, ar...原创 2018-11-13 15:36:49 · 3331 阅读 · 1 评论 -
pyltp python具体使用
import refrom pyltp import NamedEntityRecognizerfrom pyltp import SementicRoleLabellerfrom pyltp import Parserfrom pyltp import Postaggerdef ltp_segmentor(sentence): """ 分割字符串 """ segm...原创 2018-09-13 15:39:36 · 1526 阅读 · 0 评论 -
中文维基语料Word2Vec训练
参考:https://blog.csdn.net/svenhuayuncheng/article/details/787513111.获取维基百科语料库资源https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2下载1.5G左右xml版本2.抽取文件内容:从原始的xml文件中提取出标题和...转载 2018-07-09 17:39:27 · 4725 阅读 · 5 评论 -
deepdive db.url 配置
官网显示:#$符号是shell中用来表示变量的,所以 $USER@$HOSTNAME 是 用户名@主机名so: postgresql://用户名@主机名:5432/数据库名 ...原创 2018-08-01 15:23:57 · 941 阅读 · 0 评论 -
bert 分类模型
大神的帖子:https://blog.csdn.net/xmxoxo/article/details/89315370github:https://github.com/xmxoxo/BERT-train2deploy记录本人训练情况:1.数据:train.tsv,test.tsv ,dev.tsv2.改源码:-> 修改run_classifier.py文件中get_lab...原创 2019-09-30 11:51:00 · 797 阅读 · 0 评论