- 博客(12)
- 收藏
- 关注
原创 随机森林原理及参数调优
决策树1.决策树与随机森林都属于机器学习中监督学习的范畴,主要用于分类问题。 决策树算法有这几种:ID3、C4.5、CART,基于决策树的算法有bagging、随机森林、GBDT等。 决策树是一种利用树形结构进行决策的算法,对于样本数据根据已知条件或叫特征进行分叉,最终建立一棵树,树的叶子结节标识最终决策。新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策
2017-08-31 10:05:14 9478
原创 机器学习-决策树
算算有相当一段时间没写blog了,主要是这学期作业比较多,而且我也没怎么学新的东西接下来打算实现一个小的toy lib:DML,同时也回顾一下以前学到的东西当然我只能保证代码的正确性,不能保证其效率啊~~~~~~之后我会陆续添加进去很多代码,可以供大家学习的时候看,实际使用还是用其它的吧================================================
2017-08-31 08:52:10 221
原创 算法与数据结构
1,二分查找def bin_search(data_set, val): low = 0 high = len(data_set) - 1 while low mid = (low+high)//2 if data_set[mid]['id'] == val: return mid
2017-08-31 08:27:05 194
原创 爬虫打破封禁的六种方法
在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。 本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 Jav
2017-08-28 21:54:13 2702
原创 Python 爬虫程序的定时功能与监视
简介我们的爬虫程序在执行过程中,可能需要满足以下条件:1、可以每天定时执行,爬取指定电商等网站内容。2、可以对分布式爬虫进行监控,当爬虫程序挂掉之后,可以通知管理员。 下面我们来介绍如何实现这两个功能。 注意:这里我们主要演示定时执行和监控功能,所以爬虫程序只是伪代码。如果想要详细了解如何实现网络爬虫,可以参考如下一些文章:h
2017-08-28 11:55:19 4442 2
原创 最全Python正则匹配
正则表达式在应用中使用的数量不是特别多,可是一旦使用时就要各种百度了.下面汇总了一些常用的正在表达式.第1种类: 校验数字的表达式 1 数字:^[0-9]*$ 2 n位的数字:^\d{n}$ 3 至少n位的数字:^\d{n,}$ 4 m-n位的数字:^\d{m,n}$ 5 零和非零开头的数字:^(0|[1-9][0-9]*)$ 6 非零开头的最多带两位小数的数字:^([1-9
2017-08-28 11:32:14 3956
原创 python-scrapy 实现对豆瓣电影的爬取
#coding=utf-8'''PyTools:PyCharm 2017.1Python :Python3.5Author :colby_chenCreDate:2017-04-13'''from scrapy.spiders import CrawlSpiderfrom scrapy.http import Requestfrom scrapy.selecto
2017-08-28 11:10:48 460
原创 Python中的生产者与消费者 实现多线程
生产者与消费者问题是典型的同步问题。这里简单介绍两种不同的实现方法。1, 条件变量[python] view plain copyimport threading import time class Producer(threading.Thread): def __init__(self, t_name): thr
2017-08-28 11:00:09 633
原创 xpath与多线程爬虫
一. Xpath的介绍与配置1. XPath是什么XPath是一门语言XPath可以在XML文档中查找信息XPath支持HTMLXPath通过元素和属性进行导航总结:XPath可以用来提取信息(和正则表达式类似)XPath比正则表达式更加厉害XPath比正则表达式更加的简单如果你之前用正则表达式进行开发,很
2017-08-28 10:43:36 333
原创 ssh协议介绍
一、什么是SSH SSH是英文Secure Shell的简写形式。通过使用SSH,你可以把所有传输的数据进行加密,这样"中间人"这种攻击方式就不可能实现了,而且也能够防止DNS欺骗和IP欺骗。使用SSH,还有一个额外的好处就是传输的数据是经过压缩的,所以可以加快传输的速度。SSH有很多功能,它既可以代替Telnet,又可以为FTP、Pop、甚至为PPP提供一个安全的"通道"。
2017-08-28 10:28:18 362
转载 DOM
DOM(文档对象模型)是针对HTML和XML文档的一个API(应用程序编程接口)。DOM描绘了一个层次变化的节点树,允许开发人员添加、移除和修改页面的某一部分。一、节点层次在HTML页面中,文档元素始终都是元素。1. Node类型javascript中的所有节点类型都继承自Node类型,因此所有节点类型都共享着相同的基本属性和方法。 (1)nodeType属性:
2017-08-28 10:21:36 406
原创 http协议的理解
1. 基础概念篇1.1 介绍 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)合作的结果,(他们)最终发布了一系列的RFC,RFC 1945定义了HTTP/1.0版
2017-08-28 10:03:55 374
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人