自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

原创 Gensim

Gensim是一款开源的工具包,用于从原始的非结构化的文本,无监督的学习到文本隐层的主题向量表达。支持 TF-IDF、LSA、LDA、Word2Vec 等多种主题模型算法。支持流式训练 ,提供了相似度计算,信息检索等常用任务的 API 接口。基本概念语料:原始文本集合,用于无监督的训练文本主题的隐层结构。语料中不用 人工标注 附加信息。在 Gensim 中,Corpus 通常是一个...

2018-11-22 20:17:22 2147

原创 Tornado

文章目录Tornado初入Tornado参数handlers字符串服务HTTP状态码TornadoTornado 是使用 Python 编写的一个强大的、可扩展的Web服务器。它在处理严峻的网络流量时表现得足够强健,但却在创建和编写时有着足够的轻量级,并能够被用在大量的应用和工具中。Python Web 框架有三 Django、Flask、Tornado 其中 Tornado 是唯一一个...

2018-11-21 19:26:43 1998 2

原创 NLP文本相似度

NLP文本相似度相似度度量:计算个体间相似程度jieba:Python的第三方库,用于自然语言处理,对文本进行分词。gensim:利用 TF-IDF 算法来进行文本相似度计算。处理思路: jieba 进行分词,整理为指定格式,利用 gensim 库将要对比的文档通过 doc2bow 转换成稀疏向量,再通过 models 中的 TF-IDF 将语料库进行处理,特征值和稀疏矩阵相似度建...

2018-11-20 09:52:31 1776

原创 Faker模块

Faker模块该模块主要是用来伪造一些看起来一点都不假的数据。一开始看到该模块我就想到了李相赫,有道词典翻译这个词竟然显示出来了李相赫。。哈哈哈哈。。安装pip install faker创建Fakerfrom faker import Faker, Factoryfake = Faker("zh_CN") # 默认英文,初始化为中文print(fake.name())...

2018-11-19 17:21:52 3222

原创 Word2vec

Word2vec目的:从文档中有效的自动抽取语义主题。处理原始的、非结构化的文本。gensim 中的算法有LSA、LDA、RP、TF-IDF、word2vec,通过在一个训练文档语料库中,检查词汇统计联合出现模式,发掘文档语义结构,这些算法属于 非监督 学习,无需人工输入,自己只需要提供一个语料库即可。语料:原始文本集合,用于无监督的训练文本主题的隐层结构。语料中不用 人工标注 附加...

2018-11-19 10:26:58 1211

原创 Whoosh模块

Whoosh模块纯Python的全文搜索库,Whoosh是索引文本及搜索文本的类和函数库。它能让你开发出一个个性化的经典搜索引擎。Whoosh 自带的是英文分词,对中文分词支持不太好,使用 jieba 替换 whoosh 的分词组件。索引查找索引查找是在索引表和主表(线性表的索引存储结构)上进行查找。索引查找的过程:根据给定的索引值k1,在索引表上查找出索引值等于k1的索引项,...

2018-11-15 15:17:14 9850

原创 Linux安装Opencc

Opencc安装一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。Centos7.0系统下载Opencc源码# git clone https://github.com/BYVoid/OpenCC# cd OpenCC编译[root@VM_130_110_centos OpenCC]# makemkdir -p build/rel(cd buil...

2018-11-10 16:04:00 3924

原创 Python读取大文件

Python读取大文件用Python读取2GB文件的时候,用普通方式读取报错MemoryError,说明该无文件无法被装载在内存中发生溢出了。read和readlines都是将整个文件加入到内存中,文件较大时,会引发MemoryError逐行读取with open('filename', 'r', encoding = 'utf-8') as f: while True: ...

2018-11-10 13:50:29 1218

原创 jieba模块

jieba做最好的 Python 中文分词组件文章目录jieba特点主要功能分词添加自定义词典载入词典基于 TF-IDF 算法的关键词抽取并行分词词语在原文的位置延迟加载命令分词特点支持三种分词模式:精确模式:将句子最精确地切开,适合文本分析全模式:将句子中所有的可以成词的词语都扫描出来,速度很快,但是不能解决歧义搜索引擎模式:在精确的基础上,对长词再次切分,提高召回率,适用...

2018-11-07 19:37:11 6043

原创 Gensim提取语义主题

Gensim目的:从文档中有效的自动抽取语义主题。处理原始的、非结构化的文本。gensim 中的算法有LSA、LDA、RP、TF-IDF、word2vec,通过在一个训练文档语料库中,检查词汇统计联合出现模式,发掘文档语义结构,这些算法属于 非监督 学习,无需人工输入,自己只需要提供一个语料库即可。语料:原始文本集合,用于无监督的训练文本主题的隐层结构。语料中不用 人工标注 附加信息...

2018-11-07 17:01:42 3418 2

原创 aiohttp 爬取豆瓣电影

aiohttp 爬取豆瓣全部电影接口:https://movie.douban.com/j/new_search_subjects?start=0start参数:是从当前位置向下显示20个电影的信息思路:将start参数每次增加20就可以了。主要是使用aiohttp异步请求获取内容。可以看到返回的信息格式是JSON,我们直接爬取就可以了。代码所有的爬虫实例代码都放在GitHub...

2018-11-02 19:22:35 971

Kafka 配置文件及编程

Kafka配置文件server.properties,以及 IDEA 下消费者和生产者的编程代码解析

2018-03-27

Hadoop(HA)高可用配置文件

详细的 hadoop (HA)高可用配置文件内容,以及注释摘要。四个配置文件详细内容。

2018-03-26

ECharts 实现源码

具体在实现 Echarts 框架,使用的源码,来进行实现 web 网页的。

2018-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除