weixin_43473864-CSDN博客

原创 HMM模型和Viterbi算法

https://www.cnblogs.com/Denise-hzf/p/6612212.html隐含马尔可夫模型（Hidden Markov Model）1.马尔可夫假设。随机过程中各个状态的概率分布，只与它的前一个状态有关。2.马尔可夫链...

2018-12-03 00:19:13 174

原创分词

https://blog.csdn.net/haishu_zheng/article/details/80430106jieba分词的算法介绍(1)Tree树，有向无环图(DAG)(2)动态规划，最大概率路径(3)HMM模型，Viterbi算法jieba功能点1.3种分词模式2.新词识别3.自定义词典4.关键词提取5.去除停用词...

2018-12-02 23:24:37 140

# 从 a_dict 变成 aa_dict = {'key': {'inner_key': 'va'}, 'key2': {'inner_key2': 'va2'}} a_list = ['v1', 'v2'] a = {'key': {'inner_key': 'va', 'key2': 'v1'}, 'key2': {'inner_key2': 'va2', 'key2': 'v2'}}...

2018-11-16 16:12:30 1173

原创使用 Hyperopt 进行参数调优

https://www.jianshu.com/p/35eed1567463网格搜索，随机搜索，贝叶斯优化通常机器学习工程师或数据科学家将为少数模型（如决策树，支持向量机和 K近邻）执行某种形式（网格搜索或随机搜索）的手动调参，然后比较准确率并选择最佳的一个来使用。该方法可能比较的是次优模型。也许数据科学家找到了决策树的最优参数，但却错过了SVM 的最优参数。这意味着他们的模型比较是有缺...

2018-11-16 15:51:27 704

原创 json_load

with open('/Users/ronald/Downloads/Archive/resume.json','r') as f: cvResult = f.readlines()import jsonfor c in cvResult: if (json.loads(c)['job_id']['$oid']) == '5bd30948f7bf070001464815':...

2018-11-12 14:08:13 510

原创逻辑回归

https://blog.csdn.net/u013019431/article/details/79982258？在逻辑回归中，由于做了一次压缩所以没办法做正态分布的似然估计，这里采用的是做二项分布的假设。sklearn.linear_model.LogisticRegression参数penalty. ‘l1’ or ‘l2’, default:‘l2’solver. {‘newt...

2018-11-05 14:48:30 118

原创将数据保存为pickle文件

#保存为pickle文件pipe_path='pipe_feature_nb_all.pkl'with open(pipe_path,'wb') as fw: pickle.dump(Pipe,fw)#加载pickle文件pipe=pickle.load(open('pipe_feature_dt_all.pkl','rb'))

2018-11-03 16:12:51 2023

原创总结一下我写过的读文件的方式

读取excel# 读取excelworksheet = xlrd.open_workbook(filepath)table = worksheet.sheet_by_index(1)#读取第一个sheet里面的类容datas=[]# 第一行和第二行的内容不读入for i in range(table.nrows): if i == 0: continue ...

2018-10-31 10:47:59 73

原创机器学习-分类3

今天，输出了cross validation 在每个类别里面的模型评估值。主要有下面2步：#这是将输出变成pandas矩阵的函数from sklearn.metrics import classification_reportfrom collections import defaultdictdef report2dict(cr): # Parse rows tmp ...

2018-10-29 19:29:29 113

原创集成学习

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/stacking:堆；blending:混合物；bagging:装袋；boosting：助推meta-estimator:元估计2.1 Max VotingIn this technique, multiple mode...

2018-10-29 16:03:32 151

原创 SVM3

核函数线性分类器只能解决线性可分的情况，那对于线性不可分的情况，可以用非线性函数作为分类器。下面新建一个向量y和a于是，g(x)可以写为：f(y)可以表示为四维空间里的函数。是因为f(y)里面的y是一个三维的变量。这样，在二维空间里线性不可分的问题，在四维空间里变得线性可分。在这里引入核函数的概念。核函数的基本概念就是接受两个低维空间里的向量，能够计算出经过某个变换后在高维空间里...

2018-10-28 20:45:22 125

原创 SVM2

线性分类器的求解上节说到线性分类函数，也有了判断解优劣的标准–即有了优化的目标，这个目标就是最大化几何间隔。1.SVM优化的目标有最小化||w||，我们常常使用另一个完全等价的目标函数来代替，那就是：2.对于目标函数，要考虑如下的约束条件：其中l是样本数。3.在上面的求解过程中，可以看到自变量是w，而目标函数是w的二次函数，这种规划问题叫做二次规划，可以更进一步的说，它的可行域是一个...

2018-10-28 16:56:19 92

原创 SVM1

https://blog.csdn.net/DP323/article/details/80535863SVM简介SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势。SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的。VC维是对函数类的一种度量，可以简单的理解为问题的复杂程度。正因为SVM关注的是VC维，它在解决分类问题的时候，和样本的维数是无关的。泛化误差界的...

2018-10-28 15:45:13 202

原创正则表达式

import rer加在字符串前面；[]取中括号内任意的一个，a[0-9]b,a[-+*/]bre.findall 代表输出所有匹配到的字符re.search().group() 有结果就输出,只匹配成功一次就返回re.match().group()输出匹配的第一个re.split() 可以对字符串切分，可以加入 maxsplit参数re.sub() 可以对字符串进行替换；第一个字...

2018-10-27 01:36:01 74

原创机器学习-分类2

今天，在分类模型上又添加了如下代码。#单个预测，对输出的类别进行排序Class = list(pipe.classes_)print(Class)X=['感冒咳嗽恶心头晕头痛']Pipe = pipe.predict(X)print(Pipe)prob = pipe.predict_proba(X)Prob = sum(prob.tolist(),[])dict1=dic...

2018-10-26 19:48:40 163

原创爬虫程序2

from bs4 import BeautifulSoupimport requestsfrom lxml import etreeimport redef get_url(url): r = requests.get(url) text = r.text #使用etree.HTML处理源代码，然后使用Xpath提取内容 html = etree.HTML(...

2018-10-25 23:54:52 122

原创爬虫程序

from bs4 import BeautifulSoupimport requestsdef one(url): r = requests.get(url, allow_redirects = False) fin = r.text soup = BeautifulSoup(fin,'html.parser') comments = soup.find('d...

2018-10-25 23:49:47 2456

原创元组转换为字典

今天实现了元祖转换为字典from collections import defaultdictdict = defaultdict(list)a=[(1,3),(1,4),(1,5),(2,6),(2,7),(2,8)]for i in range(len(a)): dict[a[i][0]].append(a[i][1])print(dict)输出结果如下defaultd...

2018-10-24 23:29:30 9239

原创 data-understan

这篇文章是做数据处理时输出的数据from collections import defaultdictdef get_count(fPath): invertedIndex = defaultdict(list) docNumber = 0 text=[] with open(fPath, 'r',encoding='utf-8') as f: ...

2018-10-23 00:38:20 105

原创机器学习-分类

print(1)

2018-10-20 18:38:15 188

weixin_43473864的博客