自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 随机森林原理及参数调优

决策树1.决策树与随机森林都属于机器学习中监督学习的范畴,主要用于分类问题。 决策树算法有这几种:ID3、C4.5、CART,基于决策树的算法有bagging、随机森林、GBDT等。 决策树是一种利用树形结构进行决策的算法,对于样本数据根据已知条件或叫特征进行分叉,最终建立一棵树,树的叶子结节标识最终决策。新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策

2017-08-31 10:05:14 9478

原创 机器学习-决策树

算算有相当一段时间没写blog了,主要是这学期作业比较多,而且我也没怎么学新的东西接下来打算实现一个小的toy lib:DML,同时也回顾一下以前学到的东西当然我只能保证代码的正确性,不能保证其效率啊~~~~~~之后我会陆续添加进去很多代码,可以供大家学习的时候看,实际使用还是用其它的吧================================================

2017-08-31 08:52:10 221

原创 算法与数据结构

1,二分查找def bin_search(data_set, val):    low = 0    high = len(data_set) - 1    while low         mid = (low+high)//2        if data_set[mid]['id'] == val:            return mid       

2017-08-31 08:27:05 194

原创 爬虫打破封禁的六种方法

在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。 本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 Jav

2017-08-28 21:54:13 2702

原创 Python 爬虫程序的定时功能与监视

简介我们的爬虫程序在执行过程中,可能需要满足以下条件:1、可以每天定时执行,爬取指定电商等网站内容。2、可以对分布式爬虫进行监控,当爬虫程序挂掉之后,可以通知管理员。 下面我们来介绍如何实现这两个功能。 注意:这里我们主要演示定时执行和监控功能,所以爬虫程序只是伪代码。如果想要详细了解如何实现网络爬虫,可以参考如下一些文章:h

2017-08-28 11:55:19 4442 2

原创 最全Python正则匹配

正则表达式在应用中使用的数量不是特别多,可是一旦使用时就要各种百度了.下面汇总了一些常用的正在表达式.第1种类: 校验数字的表达式 1 数字:^[0-9]*$ 2 n位的数字:^\d{n}$ 3 至少n位的数字:^\d{n,}$ 4 m-n位的数字:^\d{m,n}$ 5 零和非零开头的数字:^(0|[1-9][0-9]*)$ 6 非零开头的最多带两位小数的数字:^([1-9

2017-08-28 11:32:14 3956

原创 python-scrapy 实现对豆瓣电影的爬取

#coding=utf-8'''PyTools:PyCharm 2017.1Python :Python3.5Author :colby_chenCreDate:2017-04-13'''from scrapy.spiders import CrawlSpiderfrom scrapy.http import Requestfrom scrapy.selecto

2017-08-28 11:10:48 460

原创 Python中的生产者与消费者 实现多线程

生产者与消费者问题是典型的同步问题。这里简单介绍两种不同的实现方法。1,  条件变量[python] view plain copyimport threading    import time    class Producer(threading.Thread):        def __init__(self, t_name):            thr

2017-08-28 11:00:09 633

原创 xpath与多线程爬虫

一.  Xpath的介绍与配置1.      XPath是什么XPath是一门语言XPath可以在XML文档中查找信息XPath支持HTMLXPath通过元素和属性进行导航总结:XPath可以用来提取信息(和正则表达式类似)XPath比正则表达式更加厉害XPath比正则表达式更加的简单如果你之前用正则表达式进行开发,很

2017-08-28 10:43:36 333

原创 ssh协议介绍

一、什么是SSH SSH是英文Secure Shell的简写形式。通过使用SSH,你可以把所有传输的数据进行加密,这样"中间人"这种攻击方式就不可能实现了,而且也能够防止DNS欺骗和IP欺骗。使用SSH,还有一个额外的好处就是传输的数据是经过压缩的,所以可以加快传输的速度。SSH有很多功能,它既可以代替Telnet,又可以为FTP、Pop、甚至为PPP提供一个安全的"通道"。

2017-08-28 10:28:18 362

转载 DOM

DOM(文档对象模型)是针对HTML和XML文档的一个API(应用程序编程接口)。DOM描绘了一个层次变化的节点树,允许开发人员添加、移除和修改页面的某一部分。一、节点层次在HTML页面中,文档元素始终都是元素。1. Node类型javascript中的所有节点类型都继承自Node类型,因此所有节点类型都共享着相同的基本属性和方法。 (1)nodeType属性:

2017-08-28 10:21:36 406

原创 http协议的理解

1. 基础概念篇1.1 介绍  HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)合作的结果,(他们)最终发布了一系列的RFC,RFC 1945定义了HTTP/1.0版

2017-08-28 10:03:55 374

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除