自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 HMM模型和Viterbi算法

https://www.cnblogs.com/Denise-hzf/p/6612212.html 隐含马尔可夫模型(Hidden Markov Model) 1.马尔可夫假设。随机过程中各个状态的概率分布,只与它的前一个状态有关。 2.马尔可夫链 ...

2018-12-03 00:19:13 148

原创 分词

https://blog.csdn.net/haishu_zheng/article/details/80430106 jieba分词的算法介绍 (1)Tree树,有向无环图(DAG) (2)动态规划,最大概率路径 (3)HMM模型,Viterbi算法 jieba功能点 1.3种分词模式 2.新词识别 3.自定义词典 4.关键词提取 5.去除停用词 ...

2018-12-02 23:24:37 130

原创 在嵌套字典里添加字典

# 从 a_dict 变成 a a_dict = {'key': {'inner_key': 'va'}, 'key2': {'inner_key2': 'va2'}} a_list = ['v1', 'v2'] a = {'key': {'inner_key': 'va', 'key2': 'v1'}, 'key2': {'inner_key2': 'va2', 'key2': 'v2'}}...

2018-11-16 16:12:30 1142

原创 使用 Hyperopt 进行参数调优

https://www.jianshu.com/p/35eed1567463 网格搜索,随机搜索,贝叶斯优化 通常机器学习工程师或数据科学家将为少数模型(如决策树,支持向量机和 K 近邻)执行某种形式(网格搜索或随机搜索)的手动调参,然后比较准确率并选择最佳的一个来使用。该方法可能比较的是次优模型。也许数据科学家找到了决策树的最优参数,但却错过了 SVM 的最优参数。这意味着他们的模型比较是有缺...

2018-11-16 15:51:27 694

原创 json_load

with open('/Users/ronald/Downloads/Archive/resume.json','r') as f: cvResult = f.readlines() import json for c in cvResult: if (json.loads(c)['job_id']['$oid']) == '5bd30948f7bf070001464815':...

2018-11-12 14:08:13 502

原创 逻辑回归

https://blog.csdn.net/u013019431/article/details/79982258 ?在逻辑回归中,由于做了一次压缩所以没办法做正态分布的似然估计,这里采用的是做二项分布的假设。 sklearn.linear_model.LogisticRegression 参数 penalty. ‘l1’ or ‘l2’, default:‘l2’ solver. {‘newt...

2018-11-05 14:48:30 107

原创 将数据保存为pickle文件

#保存为pickle文件 pipe_path='pipe_feature_nb_all.pkl' with open(pipe_path,'wb') as fw: pickle.dump(Pipe,fw) #加载pickle文件 pipe=pickle.load(open('pipe_feature_dt_all.pkl','rb'))

2018-11-03 16:12:51 2012

原创 总结一下我写过的读文件的方式

读取excel # 读取excel worksheet = xlrd.open_workbook(filepath) table = worksheet.sheet_by_index(1)#读取第一个sheet里面的类容 datas=[] # 第一行和第二行的内容不读入 for i in range(table.nrows): if i == 0: continue ...

2018-10-31 10:47:59 67

原创 机器学习-分类3

今天,输出了cross validation 在每个类别里面的 模型评估值。 主要有下面2步: #这是将输出变成pandas矩阵的函数 from sklearn.metrics import classification_report from collections import defaultdict def report2dict(cr): # Parse rows tmp ...

2018-10-29 19:29:29 103

原创 集成学习

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/ stacking:堆;blending:混合物;bagging:装袋;boosting:助推 meta-estimator:元估计 2.1 Max Voting In this technique, multiple mode...

2018-10-29 16:03:32 127

原创 SVM3

核函数 线性分类器只能解决线性可分的情况,那对于线性不可分的情况,可以用非线性函数作为分类器。 下面新建一个向量y和a 于是,g(x)可以写为: f(y)可以表示为四维空间里的函数。是因为f(y)里面的y是一个三维的变量。这样,在二维空间里线性不可分的问题,在四维空间里变得线性可分。 在这里引入核函数的概念。核函数的基本概念就是接受两个低维空间里的向量,能够计算出经过某个变换后在高维空间里...

2018-10-28 20:45:22 117

原创 SVM2

线性分类器的求解 上节说到线性分类函数,也有了判断解优劣的标准–即有了优化的目标,这个目标就是最大化几何间隔。 1.SVM优化的目标有最小化||w||,我们常常使用另一个完全等价的目标函数来代替,那就是: 2.对于目标函数,要考虑如下的约束条件: 其中l是样本数。 3.在上面的求解过程中,可以看到自变量是w,而目标函数是w的二次函数,这种规划问题叫做二次规划,可以更进一步的说,它的可行域是一个...

2018-10-28 16:56:19 86

原创 SVM1

https://blog.csdn.net/DP323/article/details/80535863 SVM简介 SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势。 SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的。 VC维是对函数类的一种度量,可以简单的理解为问题的复杂程度。正因为SVM关注的是VC维,它在解决分类问题的时候,和样本的维数是无关的。 泛化误差界的...

2018-10-28 15:45:13 193

原创 正则表达式

import re r加在字符串前面;[]取中括号内任意的一个,a[0-9]b,a[-+*/]b re.findall 代表输出所有匹配到的字符 re.search().group() 有结果就输出,只匹配成功一次就返回 re.match().group() 输出匹配的第一个 re.split() 可以对字符串切分,可以加入 maxsplit参数 re.sub() 可以对字符串进行替换;第一个字...

2018-10-27 01:36:01 65

原创 机器学习-分类2

今天,在分类模型上又添加了如下代码。 #单个预测,对输出的类别进行排序 Class = list(pipe.classes_) print(Class) X=['感冒 咳嗽 恶心 头晕 头痛'] Pipe = pipe.predict(X) print(Pipe) prob = pipe.predict_proba(X) Prob = sum(prob.tolist(),[]) dict1=dic...

2018-10-26 19:48:40 155

原创 爬虫程序2

from bs4 import BeautifulSoup import requests from lxml import etree import re def get_url(url): r = requests.get(url) text = r.text #使用etree.HTML处理源代码,然后使用Xpath提取内容 html = etree.HTML(...

2018-10-25 23:54:52 111

原创 爬虫程序

from bs4 import BeautifulSoup import requests def one(url): r = requests.get(url, allow_redirects = False) fin = r.text soup = BeautifulSoup(fin,'html.parser') comments = soup.find('d...

2018-10-25 23:49:47 2417

原创 元组转换为字典

今天实现了元祖转换为字典 from collections import defaultdict dict = defaultdict(list) a=[(1,3),(1,4),(1,5),(2,6),(2,7),(2,8)] for i in range(len(a)): dict[a[i][0]].append(a[i][1]) print(dict) 输出结果如下 defaultd...

2018-10-24 23:29:30 9226

原创 data-understan

这篇文章是做数据处理时输出的数据 from collections import defaultdict def get_count(fPath): invertedIndex = defaultdict(list) docNumber = 0 text=[] with open(fPath, 'r',encoding='utf-8') as f: ...

2018-10-23 00:38:20 99

原创 机器学习-分类

print(1)

2018-10-20 18:38:15 177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除