2017年08月_数据科学家corten

原创随机森林原理及参数调优

决策树1.决策树与随机森林都属于机器学习中监督学习的范畴，主要用于分类问题。决策树算法有这几种：ID3、C4.5、CART，基于决策树的算法有bagging、随机森林、GBDT等。决策树是一种利用树形结构进行决策的算法，对于样本数据根据已知条件或叫特征进行分叉，最终建立一棵树，树的叶子结节标识最终决策。新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策

2017-08-31 10:05:14 9478

原创机器学习-决策树

算算有相当一段时间没写blog了，主要是这学期作业比较多，而且我也没怎么学新的东西接下来打算实现一个小的toy lib：DML，同时也回顾一下以前学到的东西当然我只能保证代码的正确性，不能保证其效率啊~~~~~~之后我会陆续添加进去很多代码，可以供大家学习的时候看，实际使用还是用其它的吧================================================

2017-08-31 08:52:10 221

原创算法与数据结构

1，二分查找def bin_search(data_set, val): low = 0 high = len(data_set) - 1 while low mid = (low+high)//2 if data_set[mid]['id'] == val: return mid

2017-08-31 08:27:05 194

原创爬虫打破封禁的六种方法

在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 URL，并具备表单如何提交及 Jav

2017-08-28 21:54:13 2702

原创 Python 爬虫程序的定时功能与监视

简介我们的爬虫程序在执行过程中，可能需要满足以下条件：1、可以每天定时执行，爬取指定电商等网站内容。2、可以对分布式爬虫进行监控，当爬虫程序挂掉之后，可以通知管理员。下面我们来介绍如何实现这两个功能。注意：这里我们主要演示定时执行和监控功能，所以爬虫程序只是伪代码。如果想要详细了解如何实现网络爬虫，可以参考如下一些文章：h

2017-08-28 11:55:19 4442 2

原创最全Python正则匹配

正则表达式在应用中使用的数量不是特别多,可是一旦使用时就要各种百度了.下面汇总了一些常用的正在表达式.第1种类: 校验数字的表达式 1 数字：^[0-9]*$ 2 n位的数字：^\d{n}$ 3 至少n位的数字：^\d{n,}$ 4 m-n位的数字：^\d{m,n}$ 5 零和非零开头的数字：^(0|[1-9][0-9]*)$ 6 非零开头的最多带两位小数的数字：^([1-9

2017-08-28 11:32:14 3956

原创 python-scrapy 实现对豆瓣电影的爬取

#coding=utf-8'''PyTools:PyCharm 2017.1Python :Python3.5Author :colby_chenCreDate:2017-04-13'''from scrapy.spiders import CrawlSpiderfrom scrapy.http import Requestfrom scrapy.selecto

2017-08-28 11:10:48 460

原创 Python中的生产者与消费者实现多线程

生产者与消费者问题是典型的同步问题。这里简单介绍两种不同的实现方法。1，条件变量[python] view plain copyimport threading import time class Producer(threading.Thread): def __init__(self, t_name): thr

2017-08-28 11:00:09 633

原创 xpath与多线程爬虫

一. Xpath的介绍与配置1. XPath是什么XPath是一门语言XPath可以在XML文档中查找信息XPath支持HTMLXPath通过元素和属性进行导航总结：XPath可以用来提取信息（和正则表达式类似）XPath比正则表达式更加厉害XPath比正则表达式更加的简单如果你之前用正则表达式进行开发，很

2017-08-28 10:43:36 333

原创 ssh协议介绍

一、什么是SSH SSH是英文Secure Shell的简写形式。通过使用SSH，你可以把所有传输的数据进行加密，这样"中间人"这种攻击方式就不可能实现了，而且也能够防止DNS欺骗和IP欺骗。使用SSH，还有一个额外的好处就是传输的数据是经过压缩的，所以可以加快传输的速度。SSH有很多功能，它既可以代替Telnet，又可以为FTP、Pop、甚至为PPP提供一个安全的"通道"。

2017-08-28 10:28:18 362

转载 DOM

DOM（文档对象模型）是针对HTML和XML文档的一个API（应用程序编程接口）。DOM描绘了一个层次变化的节点树，允许开发人员添加、移除和修改页面的某一部分。一、节点层次在HTML页面中，文档元素始终都是元素。1. Node类型javascript中的所有节点类型都继承自Node类型，因此所有节点类型都共享着相同的基本属性和方法。（1）nodeType属性：

2017-08-28 10:21:36 406

原创 http协议的理解

1. 基础概念篇1.1 介绍 HTTP是Hyper Text Transfer Protocol（超文本传输协议）的缩写。它的发展是万维网协会（World Wide Web Consortium）和Internet工作小组IETF（Internet Engineering Task Force）合作的结果，（他们）最终发布了一系列的RFC，RFC 1945定义了HTTP/1.0版

2017-08-28 10:03:55 374

qq_37634812的博客