自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

_yuki_

战场上的小朋友~点点滴滴

  • 博客(7)
  • 资源 (11)
  • 收藏
  • 关注

原创 gensim corpora 和 dictionary 使用 (一)

corpora是gensim中的一个基本概念,是文档集的表现形式,也是后续进一步处理的基础。lib:from gensim import corporafrom collections import defaultdict数据:documents = ["Human machine interface for lab abc computer applications"

2018-01-29 09:28:29 20956 3

原创 gensim Word2Vec 训练和使用

训练模型利用gensim.models.Word2Vec(sentences)建立词向量模型该构造函数执行了三个步骤:建立一个空的模型对象,遍历一次语料库建立词典,第二次遍历语料库建立神经网络模型。可以通过分别执行model=gensim.models.Word2Vec(),model.build_vocab(sentences),model.train(sentences

2018-01-26 11:44:30 60487 16

原创 NLP snownlp 实际用例

SnowNLP是一个python写的类库,可以方便的处理中文文本内容。如中文分词、词性标注、情感分析、文本分类、提取文本关键词、文本相似度计算等。# -*- coding: utf-8 -*-from snownlp import SnowNLPs = SnowNLP('这个东西真心很赞')print('中文分词:')print(s.words) # [u'这个',

2018-01-26 04:49:48 4989 3

原创 gensim Word2Vec的参数说明

用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需。class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5,min_count=5, max_vocab_size=None, sample=0

2018-01-26 03:44:26 3652

原创 Python 下载文件

小文件下载下载小文件的话考虑的因素比较少,给了链接直接下载就好了:import requestsimage_url = "https://www.python.org/static/community_logos/python-logo-master-v3-TM.png"r = requests.get(image_url) # create HTTP response objectwi

2018-01-18 12:01:45 816

原创 NLP-朴素贝叶斯 (二)——语言分类器

理论后续会开补上,或自行学习------------------------------------------我们试试用朴素贝叶斯完成一个语种检测的分类器,说起来,用朴素贝叶斯完成这个任务,其实准确度还不错。机器学习的算法要取得好效果,离不开数据,咱们先拉点数据(twitter数据,包含English, French, German, Spanish, Italian 和 Dutch 6种语言)

2018-01-18 03:35:44 1817

原创 NLP-jieba中文处理 (一)

jieba中文处理和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。1.基本分词函数与用法jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可...

2018-01-15 11:13:14 1385

skip-gram 代码复现-简易数据集

skip-gram 代码复现-简易数据集

2022-12-15

opencv_face_landmark_model.zip

face_landmark_model

2021-02-26

boostdesc_bgm,vgg_generated_48,qrcode.zip

boostdesc_bgm,vgg_generated_48,qrcode.

2021-02-26

yolov5s_模型.zip

yolov5s_模型.zip

2020-06-16

twitter数据_学习数据

贝叶斯——学习的小小数据,关于语言分类器的学习。(nlp)

2018-01-18

中文知识图谱研讨会演讲

阿里巴巴一淘及搜索事业部——陈维 NLP Techniques in Knowledge Graph——Zhao Shiqi(百度知心) 面向中文知识图谱构建的知识融合与验证——孙乐 韩先培(中科院软件所) 跨语言知识图谱构建——李涓子(清华大学) 中文知识图谱:体系、获取与服务——

2017-11-30

Tesseract4 语言包

Tesseract-OCR 4,Tesseract4语言包,Tesseract-OCR 4 语言包

2017-10-31

redis高可用core

高可用、读写分离

2017-06-26

redis-core

java读写分离,高可用自动切换

2017-06-26

apache-rocketmq-all.tar.gz

apache-rocketmq-all.tar.gz

2017-05-25

(RocketMQ4.1)apache-rocketmq-all.tar.gz

apache-rocketmq-all.tar.gz

2017-05-25

C语言游戏编程从入门到精通

C语言游戏编程从入门到精通

2014-08-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除