小小小北漂-CSDN博客

原创 python的字典树

#-*-coding:utf-8-*-'''字典树测试:python没有指针,但是可以用嵌套字典来实现树结构.对于非ascii的单词,统一用unicode编码来插入与搜索.'''import timeclass TrieNode: #这是节点 def __init__(self): ''' 定义节点的数据结构，并初始化，设置标志

2017-09-28 14:58:48 514

原创 Gensim源代码详解——utils（持续更新中）

2017-09-20 14:10:43 4173 3

原创 Gensim源代码详解——dictionary（持续更新中）

2017-09-19 20:45:03 2070

转载 Python中的logging模块就这么用

1、日志级别日志一共分成5个等级，从低到高分别是：DEBUG INFO WARNING ERROR CRITICAL。DEBUG：详细的信息,通常只出现在诊断问题上INFO：确认一切按预期运行WARNING：一个迹象表明,一些意想不到的事情发生了,或表明一些问题在不久的将来(例如。磁盘空间低”)。这个软件还能按预期工作。ERROR：更严重的问题,软件没能执行一些功能

2017-09-19 20:21:51 399

转载使用python+机器学习方法进行情感分析(详细步骤)

不是有词典匹配的方法了吗？怎么还搞多个机器学习方法。因为词典方法和机器学习方法各有千秋。机器学习的方法精确度更高，因为词典匹配会由于语义表达的丰富性而出现很大误差，而机器学习方法不会。而且它可使用的场景更多样。无论是主客观分类还是正负面情感分类，机器学习都可以完成任务。而无需像词典匹配那样要深入到词语、句子、语法这些层面。回复此公众号“web”获取源

2017-09-15 10:58:51 1659 1

转载机器学习总章

聚类机器学习算法（一）：聚类算法 - tuqinag的专栏 - 博客频道 - CSDN.NET距离距离计算方法总结 - Bin的专栏 - 博客园各种距离算法汇总 - mousever的专栏 - 博客频道 - CSDN.NET 几种常见距离算法小结 - 数据挖掘专栏 - 博客频道 - CSDN.NET 18种和“距离(distance)”、“相似度(similarity)”

2017-09-11 10:55:38 259

转载 Gensim官方教程翻译（七）——分布式潜在语义分析案例（Distributed Latent Semantic Analysis）

仅供个人学习之用，如有纰漏，敬请指正。原文地址阅读《分布式计算》教程来了解gensim中的分布式计算。设置一个集群我们将会通过一个案例展示如何运行分布式潜在语义分析。让我们假设我们有5个计算机，所有的电脑都在一个网段（网络广播可达）。为了开始，首先安装gensim并在每台电脑上设置Pyro（）：$ sudo easy_install gensim[distr

2017-09-11 10:53:34 591

转载 Gensim官方教程翻译（六）——分布式计算（Distributed Computing）

为何要分布式计算？需要构建一个百万文档级语料库的语义代表，却耗时太~~长？手上有几个可用的闲置计算机？分布式计算力争通过将给定的任务切分为几个小型任务，并将这些任务指派给几台平行的计算机完成来实现加速计算。在这里提到的计算节点是指通过其IP地址/端口识别的计算机，并通过TCP/IP协议完成通讯。所有可用的计算机作为一个整体，称为集群（cluster）。分布式是非常粗粒度的（没有太多实

2017-09-11 10:52:49 513

转载 Gensim官方教程翻译（五）——英文维基百科的实验

仅供个人学习之用，如有错误，敬请指正。原文地址为了测试gensim的性能，我们在维基百科英文版上运行了一些实验。这个页面描述了获取与处理维基百科的过程，以便任何人都能再现这个结果。本教程要求已经正确安装了gensim。译者注：维基百科的内容在不断更新，因此本文的结果仅供参考，可能与实际情况有出入。准备语料库首先，从 http://download.

2017-09-11 10:51:14 923 1

转载 Gensim官方教程翻译（四）——相似度查询（Similarity Queries）

仅供个人学习之用，如有错误，敬请指正。原文地址如果想要开启日志，别忘记设置：>>> import logging>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)12相似度接口在之前的教程《语料库与向量空间》和《主题与转换》中

2017-09-11 10:50:20 1036

转载 Gensim官方教程翻译（三）——主题与转换（Topics and Transformations）

为了我自己学习方便，翻译了gensim的官方教程。如有错误，请指正。原文地址如果想要开启日志，别忘记设置：>>> import logging>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)12转换接口在之前的教程《语料库与

2017-09-11 10:48:39 374

转载 Gensim官方教程翻译（二）——语料库与向量空间（Corpora and Vector Spaces）

仅供我自己学习方便，翻译了原教程，原文地址：http://radimrehurek.com/gensim/tut2.html====================正==========文====================如果你想记录日志，请不要忘记设置：>>> import logging>>> logging.basicConfig(format='%(as

2017-09-07 22:37:26 319

转载 Gensim官方介绍翻译（一）

为了方便自己学习，翻译一下。原文地址：http://radimrehurek.com/gensim/intro.html。Gensim是一个免费的Python库，它可以用来从文档中自动提取语义主题，并且尽可能地做到轻松（对人）高效（对电脑）。Gensim致力于处理原始的、非结构化的数字文本（普通文本）。Gensim中用到的算法，如潜在语义分析（Latent Semantic A

2017-09-07 22:30:23 274

转载 Linux定时任务Crontab命令详解

Linux定时任务Crontab命令详解linux 系统则是由 cron (crond) 这个系统服务来控制的。Linux 系统上面原本就有非常多的计划性工作，因此这个系统服务是默认启动的。另外, 由于使用者自己也可以设置计划任务，所以， Linux 系统也提供了使用者控制计划任务的命令 :crontab 命令。一、crond简介crond 是linux下

2017-09-07 10:31:26 297

转载 Python多进程

multiprocessing python多进程模块, 于是, Processing也是多进程的宠儿. 但今天讨论的问题, 似乎也能引起我们一番重视直接上代码:from multiprocessing import Process, Lockerr_file = 'error1.log' err_fd = open(err_file, 'w')def put(fd):

2017-09-05 16:52:00 415

转载 python性能优化plus

优化算法时间复杂度算法的时间复杂度对程序的执行效率影响最大，在Python中可以通过选择合适的数据结构来优化时间复杂度，如list和set查找某一个元素的时间复杂度分别是O(n)和O(1)。不同的场景有不同的优化方式，总得来说，一般有分治，分支界限，贪心，动态规划等思想。减少冗余数据如用上三角或下三角的方式去保存一个大的对称矩阵。在0元素占大多数的矩阵里使用稀疏矩阵表示。

2017-09-01 16:13:18 262

转载 Python性能优化

1、使用生成器和列表解析一个普遍被忽略的内存优化是生成器的使用。生成器让我们创建一个函数一次只返回一条记录，而不是一次返回所有的记录，如果你正在使用python2.x，这就是你为啥使用xrange替代range或者使用ifilter替代filter的原因。一个很好地例子就是创建一个很大的列表并将它们拼合在一起。[python] view plain

2017-09-01 15:43:52 257

转载编写 DockerFile

编写 DockerFile 本节内容简介在前面的实验中我们多次用到的 Dockerfile，在本实验里我们将通过完成一个实例来学习Dockerfile的编写。本节中，我们需要依次完成下面几项任务：Dockerfile 基本框架Dockerfile 编写常用命令从 Dockerfile 构建镜像本次实验的需求是完成一个Dockerfile，通过该Doc

2017-09-01 15:15:50 436

转载 Python性能优化的小细节

#-*-coding:utf-8-*-from time import timet = time()list = ['a','b','is','python','jason','hello','hill','with','phone','test','dfdf','apple','pddf','ind','basic','none','baecr','var','bana','dd','w

2017-08-28 14:49:35 253

转载 Python实现链表

链表的定义：　　链表(linked list)是由一组被称为结点的数据元素组成的数据结构，每个结点都包含结点本身的信息和指向下一个结点的地址。由于每个结点都包含了可以链接起来的地址信息，所以用一个变量就能够访问整个结点序列。也就是说，结点包含两部分信息：一部分用于存储数据元素的值，称为信息域；另一部分用于存储下一个数据元素地址的指针，称为指针域。链表中的第一个结点的地址存储在一个单独的结点

2017-08-25 14:07:51 231

原创 python 小结

1、key在使用时必须提供一个排序过程总调用的函数：x = ['mmm', 'mm', 'mm', 'm' ]x.sort(key = len)print x # ['m', 'mm', 'mm', 'mmm']2、reverse实现降序排序，需要提供一个布尔值：y = [3, 2, 8 ,0 , 1]y.sort(reverse = True)prin

2017-08-25 14:00:39 169

转载关于Python中递归次数

在python里递归最多达到多少次？因为在跑程序的时候，次数有时多有时少，以前没有想过这个问题。那就自己动手在验证验证，代码如下：12345678def recursion(n): if(n = 0): return print n

2017-08-22 14:30:17 2977

原创基于Python结巴分词（调用自定义词库已经去除停用词）

# -*- coding: utf-8 -*-import timeimport jiebaimport jieba.posseg as pseg#用于词性标注#分词#停用词过滤def stop_word(fid1,fid2,fid3): stopword=[] for j in fid2.readlines(): stopword.append(j.

2017-08-08 15:45:13 2568

qq_37691768的博客