一段很简单的搜索引擎代码 # -*- coding: utf-8 -*-"""Created on Fri Aug 18 15:58:13 2017@author: JClian"""import reimport bs4import urllib.requestfrom bs4 import BeautifulSoupimport urllib.parseimport syssearch_ite...
朴素贝叶斯模型下的新闻分类 贝叶斯理论简单回顾在我们有一大堆样本(包含特征和类别)的时候,我们非常容易通过统计得到 p(特征|类别) .大家又都很熟悉下述公式:p(x)p(y|x)=p(y)p(x|y) 所以做一个小小的变换p(特征)p(类别|特征)=p(类别)p(特征|类别) p(类别|特征)=p(类别)p(特征|类别)p(特征) 独立假设看起来很简单,但实际上,你的特征可能是很多维的p(...
gensim源码分析 # -*- coding:utf-8 -*-from collections import Mapping, defaultdictimport sysimport loggingimport itertoolsimport jiebaimport jsonfrom gensim import utilsfrom six import PY3, iteritems, ite...
一段比较好的生成自动摘要代码 #!/user/bin/python# coding:utf-8import nltkimport numpyimport jiebaimport codecsimport osclass SummaryTxt: def __init__(self,stopwordspath): # 单词数量 self.N = 100 #...
HMM与分词、词性标注、命名实体识别 HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、今天清理房间了!”,那么我可以根据她发的推特推断东京这三天的天气。在这个例子里,显状态是活动,隐状态是天气。2014年11月23日更新:我已利用HMM...
logistic回归 最近感觉时间越来越宝贵,越来越不够用。不过还是抽空看了点书,然后整理到博客来。加快点节奏,废话少说。Keep calm & carry on.-------------------------------------------------------------------------------------这次要介绍的内容是Logistic Regression(LR,...
遍历文件目录并上传服务器 工作中用到这一点,当时赶时间,直接写死的文件路径,上传后得到fileid,其实这样就不太好了,如果今后有了业务变化,就要不断的该,修改后的通用代码如下调用格式如下,cluster代表集群名称,index代表主页面,attachment代表附属目录put_file_msg.py --cluster 集群名称 --title "" --index index1.html --attachment...
python入门(@property,@*.setter) @property可以将python定义的函数“当做”属性访问,从而提供更加友好访问方式,但是有时候setter/deleter也是需要的。1、只有@property表示只读。2、同时有@property和@*.setter表示可读可写。3、同时有@property和@*.setter和@*.deleter表示可读可写可删除。代码:[python] view plain copy 1 #codin...
mongodb 添加用户报错TypeError:db.addUser is not a function (mongodb3.4.1) 1:问题如下:原因是 新版的MongoDB已经不支持addUser方法了。 改成createUser了。 使用方法如下 2:具体解释一下db.createUser()方法的用法定义:创建一个数据库新用户用db.createUser()方法,如果用户存在则返回一个用户重复错误。语法:db.createUser(user, writeConcern) user这个文档创建关于用户的身份认证和访问...
内存管理之伙伴算法 通常情况下,一个高级操作系统必须要给进程提供基本的、能够在任意时刻申请和释放任意大小内存的功能,就像malloc 函数那样,然而,实现malloc 函数并不简单,由于进程申请内存的大小是任意的,如果操作系统对malloc 函数的实现方法不对,将直接导致一个不可避免的问题,那就是内存碎片。内存碎片就是内存被分割成很小很小的一些块,这些块虽然是空闲的,但是却小到无法使用。随着申请和释放次数的增加,内存...
Mysql数据库表分区深入详解 0、mysql数据库分区的由来?1)传统不分区数据库痛点mysql数据库中的数据是以文件的形势存在磁盘上的,默认放在/mysql/data下面(可以通过my.cnf中的datadir来查看), 一张表主要对应着三个文件,一个是frm存放表结构的,一个是myd存放表数据的,一个是myi存表索引的。[root@laoyang test]# ls -al总用量 1811444drwx------ 2...
CodeBlocks链接时报未找到错误 undefined reference to 编写带有头文件的类和其实现分别放在不同的文件中,在VC++中正常编译链接执行, 而在CodeBlocks中出现如下错误: ||=== xz, Debug ===| obj\Debug\main.o||In function main':| F:\demo\CodeBlocks\xz\main.cpp|7|undefined reference toLinkedList::LinkedList()’...
一个比较经典的生产者消费者模型(Linux C++实现) 学习了几天Linux多线程,大多是看的别人的博客,并试着写了个小例子,现在也把学到的一些东西记录下来,供以后查阅,属于初级入门的范围,望共勉。 进程是系统中程序执行和分配资源的基本单位,每个进程都有自己独立的数据段,代码段和堆栈段。而线程是系统中独立运行的最小单位,可以说操作系统分配CPU时间的最小单位,可以叫轻型的进程。一个进程可以有多个线程,在多进程情况下,每个进程都有着自己的地址空间,消...
Redis内存回收:LRU算法 http://www.cnblogs.com/WJ5888/p/4371647.htmlRedis:https://github.com/zwjlpeng/Redis_Deep_ReadRedis中采用两种算法进行内存回收,引用计数算法以及LRU算法,在操作系统内存管理一节中,我们都学习过LRU算法(最近最久未使用算法),那么什么是LRU算法呢LRU算法作为内存管理的一种有效算法,其含义是在内存有...
mysql索引的使用及优化方法 MySQL性能优化优化MySQL数据库是数据库管理员和数据库开发人员的必备技能。优化MySQL,一方面是找出系统的瓶颈,提高MySQL数据库整体的性能;另一方面是合理设计结构和调整参数,以提高用户操作响应的速度。同时还要尽可能节省系统资源,以便系统可以提供更大负荷的服务。MySQL数据库优化是多方面的,原则是减少系统的瓶颈,减少资源的占用,提高系统的反应速度。例如,通过优化文件系统,提高磁盘的读写...
字典树与模糊搜索 字典树是一种存储字符串的树形结构,假设有如下场景,给出一堆字符串,然后让你求出以某个字符串为前缀的字符串的个数比如给你abcd,abce,然后让你求以abc为前缀的字符串的个数 代码如下:#include <iostream>#include <string>using namespace std;typedef struct _Node{ int ...
条件变量的if与while 此文是linux c++的一个程序,该程序要求是给定一个缓冲区,一个生产者,一个消费者,然后要求使用条件变量,互斥量来解决读写问题,其中有个重要的知识点就是,使用信号量的时候,如何保证线程安全,如果有一个生产者,多个消费者,这种情况下,条件变量wait地方就应该使用while,而非if,如果是单生产单消费,则可以用if。具体解释见代码注释/* ex7-4.c */#include